Large Language Model

Ein Large Language Model, kurz LLM (englisch, vereinzelt übertragen großes Sprachmodell), ist ein Sprachmodell, das sich durch seine Fähigkeit zur unspezifischen Erzeugung von Texten auszeichnet. Es handelt sich um ein computerlinguistisches Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozess erlernt hat.

Große Sprachmodelle erlangen diese Fähigkeiten durch die Verwendung gigantischer Datenmengen, um während des Trainings riesige Mengen von Parametern zu lernen. Dabei verbrauchen sie extrem viele Rechenressourcen. Große Sprachmodelle sind im weiteren Sinne künstliche neuronale Netze (im Grunde genommen sogenannte Transformer) und werden (a priori) entweder durch selbst überwachtes Lernen oder halb überwachte Lernmethoden trainiert.

Große Sprachmodelle arbeiten als selbst anpassende Sprachmodelle, die verschiedene Aufgaben in natürlicher Sprache ausführen können, z. B. das Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das nächste Token oder Wort vorhersagen. Bis 2020 bestand die einzige Möglichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der Feinabstimmung. Größere Modelle, wie z. B. das inzwischen populäre GPT-3, wurden jedoch so konzipiert, dass sie mit Hilfe von Prompt Engineering ähnliche Ergebnisse erzielen können. Zusätzlich zu der Fähigkeit, Kenntnisse über Syntax, Semantik und „Ontologie“ in menschlichen Sprachkorpora zu erwerben, wird angenommen, dass Große Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.

LLMs werden beispielsweise bei Open Assistant, ChatGPT, Ernie Bot und Grok eingesetzt. Einige große Sprachmodelle sind die GPT-Modellreihe von OpenAI (z. B. GPT-3.5 und GPT-4, die in ChatGPT und Microsoft Copilot verwendet werden), Googles PaLM und Gemini (verwendet in Bard), Metas LLaMA-Familie von Open-Source-Modellen, Anthropics Claude und X.AIs Grok-1.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.