Generative Pre-trained Transformer 3 (GPT-3)
Basisdaten
Entwickler OpenAI
Erscheinungsjahr 28. Mai 2020
Aktuelle Version 175B
Lizenz proprietäre Lizenz
https://openai.com/blog/openai-api

Generative Pre-trained Transformer 3 (GPT-3) ist ein autoregressives Sprachmodell, das Deep Learning verwendet, um natürlich wirkenden Text zu produzieren. Es ist der Nachfolger von GPT-2 und wurde von OpenAI entwickelt, einem amerikanischen Unternehmen, das Forschung zu künstlicher Intelligenz betreibt. Die größte Version von GPT-3 besitzt 175 Milliarden Parameter. Es wurde im Mai 2020 vorgestellt und befindet sich Stand Juli 2020 in einer Betaphase. GPT-3 ist Teil eines Trends in der Computerlinguistik, Systeme mit vortrainierten Sprachrepräsentationen zu nutzen. Vor der Veröffentlichung von GPT-3 war Microsofts Turing NLG das größte Sprachmodell, dieses wurde Februar 2020 vorgestellt und besaß mit 17 Milliarden Parametern weniger als ein Zehntel der Kapazität von GPT-3.

Die Qualität der von GPT-3 generierten Texte ist so hoch, dass es schwierig ist, sie von Texten zu unterscheiden, die von Menschen geschrieben wurden, was sowohl Vorteile als auch Nachteile hat. 31 Forscher und Ingenieure arbeiteten an der initialen Fachpublikation vom 28. Mai 2020, in der sie auch vor möglichen Gefahren durch GPT-3 warnten und weitere Forschung zur Risikominimierung forderten.:34 David Chalmers, ein australischer Philosoph, beschrieb GPT-3 als „eines der interessantesten und wichtigsten KI-Systeme, die je produziert wurden.“

Microsoft verkündete am 22. September 2020, dass es die „exklusiven“ Nutzungsrechte an GPT-3 lizenziert habe, andere können weiterhin die öffentliche API nutzen, aber nur Microsoft habe Kontrolle über den Quellcode. Es gibt mehrere Startups, die auf GPT-3 aufbauen.

Hintergrund

Laut der britischen Zeitschrift The Economist haben verbesserte Algorithmen, leistungsfähige Computer und eine größere Menge digitalisierter Daten eine Revolution des maschinellen Lernens vorangetrieben: Neue Technologien der 2010er-Jahre resultierten in „schnellen Fortschritten bei Aufgaben“ wie zum Beispiel Sprachverarbeitung. Softwaremodelle werden trainiert, unter Verwendung von tausenden oder Millionen von Beispielen zu lernen, in einer „Struktur […] lose der neuralen Architektur des Gehirns nachempfunden“. Eine Architektur, die in der Verarbeitung natürlicher Sprache verwendet wird, ist der erstmals 2017 vorgestellte Transformer, ein neuronales Netzwerk basierend auf einem Deep-Learning-Modell. Die GPT-n-Modelle nutzen eine solche Transformer-basierte Architektur. Es gibt eine Reihe von computerlinguistischen Systemen, die in der Lage sind, Sprache zu verarbeiten, sie zu organisieren und Verbindungen herzustellen, sie zu „verstehen“ und Antworten auf Fragen zu generieren.

Am 11. Juni 2018 veröffentlichte OpenAI ihre erste Fachpublikation über |generative Modelle, die mit einem enorm großen und diversen Textkorpus in einem Prozess namens Generative Pre-Training (GP) vortrainiert werden können. Die Autoren beschrieben, wie die Leistungen im maschinellen Sprachverstehen bei GPT-n durch eine Anwendung von „generativem Pre-Training eines Sprachmodells auf einem diversen, nicht mit Labeln versehen Korpus, gefolgt von diskriminativem Fine-Tuning für jede spezifische Aufgabe.“ Das machte Beaufsichtigung durch Menschen (unüberwachtes Lernen) und zeitintensive manuelle Labelerstellung unnötig.

Februar 2020 stellte Microsoft Turing Natural Language Generation (T-NLG) vor, das zurzeit mit 17 Milliarden Parametern das „größte je veröffentlichte Sprachmodell“ war. Es erzielte bei einer Vielzahl von Aufgaben, darunter bei automatischer Textzusammenfassung und bei der Beantwortung von Fragen, bessere Leistungen als jedes andere Sprachmodell.

Fähigkeiten

Am 28. Mai 2020 veröffentlichte OpenAI ein Preprint auf arXiv, das die Entwicklung von GPT-3, einem „dem Stand der Technik entsprechenden Sprachmodell“ der dritten Generation, beschrieb. Das Team vergrößerte die Kapazität von GPT-3 im Vergleich zum Vorgängermodell GPT-2 um mehr als das Hundertfache. Damit stellte es das größte Sprachmodell seiner Art dar.:14 Die größere Zahl an Parametern ermöglicht im Vergleich zu kleineren Modellen eine größere Genauigkeit. Die Kapazität von GPT-3 ist mehr als das Zehnfache derer von Microsofts Turing NLG.

Sechzig Prozent des gewichteten Pre-Training-Datasets für GPT-3 entstammen einer gefilterten Version von Common Crawl bestehend aus 410 Milliarden Tokens.:9 Andere Quellen sind 19 Milliarden Tokens aus WebText2 für 22 % des gewichteten Datasets, 12 Milliarden Tokens aus Books1 für 8 %, 55 Milliarden Tokens from Books2 für 8 % und 3 Milliarden Tokens aus Wikipedia für 3 %.:9 GPT-3 wurde auf hunderten Milliarden Wörtern trainiert und ist in der Lage, Code in CSS, JSX, Python und anderen Sprachen zu generieren. Da die Trainingsdaten allumfassend waren, wird kein weiteres Training für spezifische Anwendungen benötigt.

Am 11. Juni 2020 verkündete OpenAI, dass Benutzer Zugriff auf eine GPT-3-API anfragen könnten, um OpenAI beim „Erkunden der Stärken und Grenzen“ dieser neuen Technologie zu helfen. Die Einladung beschrieb, dass die API einen Text als Eingabe akzeptiert, um dann einen Ausgabetext zu generieren. Damit könne „fast jede englische Sprachverarbeitungsaufgabe“ durchgeführt werden, im Gegensatz zu den üblichen zweckspezifischen Anwendungen. Laut einem Nutzer mit frühem privaten Zugriff auf die GPT-3-API war GPT-3 „unheimlich gut“ darin, „erstaunlich kohärenten Text“ auf nur wenige, einfache Aufforderungen hin zu generieren.

GPT-3 kann „Nachrichtenartikel produzieren, bei denen Menschen Schwierigkeiten haben, sie von menschengemachten Artikeln zu unterscheiden“ und hat daher das „Potential, sowohl die nützlichen als auch die schädlichen Anwendungen von Sprachmodellen voranzutreiben.“:34 In der Publikation vom 28. Mai 2020 beschrieben die Forscher detailliert die potentiellen „schadhaften Auswirkungen von GPT-3“, darunter „Misinformation, Spam, Phishing, Missbrauch von Rechts- und Regierungsprozessen, betrügereische Erstellung von akademischen Aufsätzen und Social Engineering.“ Die Autoren sprechen diese Thematik an, um Forschung zur Risikominimierung zu fordern.:34

Rezeption

In einem Bericht vom 29. Juli 2020 in der New York Times beschrieb Farhad Manjoo GPT-3 als nicht nur „erstaunlich“, „gruselig“, and „demütigend“, sondern auch „mehr als ein wenig erschreckend“.

Daily Nous präsentierte eine Reihe von Artikeln zum Thema GPT-3, geschrieben von neun Philosophen. Der australische Philosoph David Chalmers beschrieb GPT-3 als „eines der interessantesten und wichtigsten KI-Systeme, die je produziert wurden“.

Wired berichtete, GPT-3 „lässt im Silicon Valley Schauer über Rücken laufen.“

National Law Review schrieb, GPT-3 sei ein „beeindruckender Schritt im größeren Prozess“, wobei OpenAI und andere „nützliche Anwendungen für all diese Macht“ fänden, während sie weiterhin „auf eine Allgemeine Künstliche Intelligenz hinarbeiten“.

Ein Artikel in MIT Technology Review, unter anderem verfasst vom Deep-Learning-Kritiker Gary Marcus, stellte fest, dass das „Verständnis der Welt häufig ernstlich fehlerhaft [sei], was bedeutet, man kann nie wirklich dem Vertrauen, was es sagt.“ Laut den Autoren modelliert GPT-3 Beziehungen zwischen Wörtern, ohne ein Verständnis der Bedeutung jeden Wortes zu besitzen.

Jerome Pesenti, Leiter des Facebook A.I. Lab, sagte, GPT-3 sei „unsicher“, mit Verweis auf sexistische, rassistische und andere voreingenommene und negative Sprache, die vom System verwendet wurde, als es aufgefordert wurde, Text über Juden, Frauen, Schwarze und den Holocaust zu generieren.

Nabla, ein französisches Startup, das sich in Gesundheitstechnologie spezialisiert, testete GPT-3 as medizinischen Chatbot, obwohl OpenAI bereits vor solcher Nutzung gewarnt hatte. Wie erwartet zeigte GPT-3 schwere Einschränkungen: Zum Beispiel schlug bei Tests zum Thema psychische Gesundheit das System einem Patienten vor, Suizid zu begehen.

Anwendungen

  • GPT-3 wurde von Andrew Mayne für AI Writer verwendet, ein Projekt, das Menschen ermöglicht, mit historischen Personen via E-Mail zu korrespondieren.
  • GPT-3 wurde von Jason Rohrer für ein Chatbot-Projekt im Retro-Stil, genannt „Project December“, genutzt, welches online verfügbar ist und Nutzern unter Verwendung von GPT-3 erlaubt, mit verschiedenen Künstlichen Intelligenzen zu kommunizieren.
  • GPT-3 wurde von The Guardian benutzt, um einen Artikel über die Harmlosigkeit von künstlicher Intelligenz zu schreiben. Dafür wurden einige Ansätze geliefert, aus denen GPT-3 acht verschiedene Essays generierte, die letztlich zu einem Artikel zusammengeführt wurden.
  • GPT-3 wird in AI Dungeon, einem textbasierten Adventure-Spiel, verwendet, um Handlung zu generieren.

Belege

  1. In: Language Models are Few-Shot Learners. 22. Juli 2020: „To study the dependence of ML performance on model size, we train 8 different sizes of model, ranging over three orders of magnitude from 125 million parameters to 175 billion parameters, with the last being the model we call GPT-3.
  2. 1 2 Sam Shead: Why everyone is talking about the A.I. text generator released by an Elon Musk-backed lab In: CNBC, 23. Juli 2020. Abgerufen am 31. Juli 2020. (englisch) 
  3. 1 2 Frederik Bussler: Will GPT-3 Kill Coding? In: Towards Data Science. 21. Juli 2020, abgerufen am 1. August 2020 (englisch).
  4. 1 2 David Chalmers: GPT-3 and General Intelligence. In: Daily Nous. 30. Juli 2020, abgerufen am 4. August 2020 (englisch).
  5. Anton Shardin: Apps and Startups powered by GPT-3. In: Medium. 29. Oktober 2020, abgerufen am 10. Februar 2021 (englisch).
  6. An understanding of AI's limitations is starting to sink in In: The Economist, 11. Juli 2020. Abgerufen am 31. Juli 2020. (englisch) 
  7. Natural Language Processing. Abgerufen am 31. Juli 2020 (englisch).
  8. Alec Radford, Karthik Narasimhan: Improving Language Understanding by Generative Pre-Training. 11. Juni 2018, S. 12, abgerufen am 31. Juli 2020 (englisch).
  9. Bruce Sterling: Web Semantics: Microsoft Project Turing introduces Turing Natural Language Generation (T-NLG) In: Wired, 13. Februar 2020. Abgerufen am 31. Juli 2020. (englisch) 
  10. Language Models are Unsupervised Multitask Learners. Abgerufen am 31. Juli 2020 (englisch).
  11. Tiernan Ray: OpenAI's gigantic GPT-3 hints at the limits of language models for AI. In: ZDNet. 1. Juni 2020, abgerufen am 31. Juli 2020 (englisch).
  12. OpenAI API. In: OpenAI. 11. Juni 2020 (englisch).
  13. TechCrunch – Startup and Technology News. In: TechCrunch. 11. Juni 2020, abgerufen am 31. Juli 2020 (englisch): „If you’ve ever wanted to try out OpenAI’s vaunted machine learning toolset, it just got a lot easier. The company has released an API that lets developers call its AI tools in on “virtually any English language task.”“
  14. Arram: GPT-3: An AI that’s eerily good at writing almost anything. In: Arram Sabeti. 9. Juli 2020, abgerufen am 31. Juli 2020 (englisch).
  15. Farhad Manjoo: How Do You Know a Human Wrote This? In: The New York Times, 29. Juli 2020. Abgerufen am 4. August 2020. (englisch) 
  16. Philosophers On GPT-3 (updated with replies by GPT-3). In: Daily Nous. 30. Juli 2020, abgerufen am 31. Juli 2020 (englisch).
  17. Tom Simonite: Did a Person Write This Headline, or a Machine? In: Wired, 22. Juli 2020. Abgerufen am 31. Juli 2020. (englisch) 
  18. Theodore Claypoole: New AI Tool GPT-3 Ascends to New Peaks, But Proves How Far We Still Need to Travel. In: The National Law Review. 30. Juli 2020, abgerufen am 4. August 2020 (englisch).
  19. Gary Marcus: The deepest problem with deep learning. In: Medium. 1. Dezember 2018, abgerufen am 29. September 2020 (englisch).
  20. Cade Metz: Meet GPT-3. It Has Learned to Code (and Blog and Argue). In: The New York Times, 24. November 2020 (amerikanisches Englisch) 
  21. Medical chatbot using OpenAI's GPT-3 told a fake patient to kill themselves. In: AI News. 28. Oktober 2020, abgerufen am 8. Januar 2021 (britisches Englisch).
  22. GPT-3: A robot wrote this entire article. Are you scared yet, human? – GPT-3 In: The Guardian, 8. September 2020. Abgerufen am 15. September 2020. (englisch) 
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.