Einleitung

Ein Large Language Model, kurz LLM (englisch, vereinzelt übertragen großes Sprachmodell), ist ein Sprachmodell, das sich durch seine Fähigkeit zur Textgenerierung auszeichnet. Es handelt sich um ein computerlinguistisches Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozess erlernt hat. Für die mathematische Beschreibung siehe Sprachmodell.

Entstehung und Entwicklung

Große Sprachmodelle erlangen diese Fähigkeiten durch die Verwendung gigantischer Datenmengen, um während des Trainings riesige Mengen von Parametern zu lernen. Dabei verbrauchen sie extrem viel Rechenressourcen.^[1]

Anwendung und Einsatz

Große Sprachmodelle sind im weiteren Sinne künstliche neuronale Netze und werden (a priori) entweder durch selbstüberwachtes Lernen oder halbüberwachte Lernmethoden trainiert. Stand 2024 werden meistens Transformer als Netzwerkarchitektur gewählt.^[2]

Geschichte

Auf der „Conference on Neural Information Processing Systems“ (NeurIPS) 2017 stellten Google-Forscher unter Ashish Vaswani die Transformer-Architektur in ihrem Papier Attention Is All You Need vor.^[3]^[4] Ziel dieses Papiers war es, die Seq2seq-Technologie aus dem Jahr 2014 zu verbessern, und es basierte hauptsächlich auf dem von Bahdanau et al. 2014 entwickelten Aufmerksamkeitsmechanismus (attention mechanism).^[5]

Multimodal Learning

Multimodal Learning verwendet verschieden strukturierte Daten im Bereich der künstlichen Intelligenz:^[6]

Textmodellierung

Text ist eine der am häufigsten verwendeten Modalitäten im maschinellen Lernen. Textdaten enthalten strukturierte Informationen, und mithilfe der natürlichen Sprachverarbeitung lässt sich leicht Wissen aus ihnen extrahieren. Die Techniken, die zur Verarbeitung dieser Informationen verwendet werden, umfassen Tokenisierung, Lemmatisierung, Syntaxanalyse, Erkennung von benannten Entitäten und Textklassifizierung.

1. 1. 1. Bildmodellierung

Bilder sind eine wesentliche Quelle visueller Informationen. Mithilfe von Convolutional Neural Networks konnten große Fortschritte beim Verständnis von Bildern erzielt werden. Verwendete Techniken sind z. B. die Objekterkennung, die Gesichtserkennung und die Segmentierung von Bildern.

==== Audiomodellierung

==

Die Audiomodalität umfasst Informationen aus Sprachaufnahmen, Tondateien oder Live-Streams.

Videomodellierung

Videos sind eine leistungsstarke Quelle für multimodale Daten, weil sie visuelle und auditive Informationen kombinieren. Computer Vision und Audioverarbeitungstechniken ermöglichen es, Wissen aus einer Videosequenz zu extrahieren. Dies ermöglicht die Erkennung von sich bewegenden Objekten, die Analyse menschlicher Aktivitäten oder sogar die Erkennung von Gesten.

Bootstrapping Language-Image Pretraining

Die meisten modernen Vision-Language-Modelle benötigen während des Trainings einen hohen Rechenaufwand, weil das Training mit umfangreichen Modellen und Datensätzen erfolgt, vgl. Contrastive Language-Image Pre-training (CLIP). Die Forschung befindet sich an der Schnittstelle zwischen Sehen und Sprache. Daher ist zu erwarten, dass Vision-Language-Modelle von den leicht verfügbaren unimodalen Modellen der Bilderkennung und natürlichen Spracherkennung profitieren können.

Skalierungsgesetze

Passt man für jede Modalität $j$ die sieben Parameter der Gleichung

{\mathcal {L}}(N,D_{j})=E_{j}+{\frac {A_{j}}{N^{\alpha _{j}}}}+{\frac {B_{j}}{|D_{j}|^{\beta _{j}}}}

an und minimiert

\sum _{i\mod j}H_{\sigma =0.03}[LSE(a_{j}-\alpha _{j}\cdot \log(N_{i}),b-\beta \cdot \log(D_{i}),e_{j})-L_{i}]

für $\{a_{j},b_{j},e_{j},\alpha _{j},\beta _{j}\}$ , wobei $H$ der Standard-Huberverlust für jeden Durchlauf $i$ und Modalität $j$ ist. Man setz dann $A_{j}=e^{a_{j}}$ , $B_{j}=e^{b_{j}}$ , $E_{j}=e^{e_{j}}$ . Um die optimalen Minima zu identifizieren, verwendet man das BGFS-Verfahren auf demselben Gitter der Initialisierungswerte. Die erhaltenen optimalen Werte befinden sich nicht an den Grenzen des Initialisierungsgitters. Die Skalierungsgesetze für jede Modalität sind im Einzelnachweis verfügbar. Die Parameter für jede Modalität variieren erheblich.^[7]

Training und Verschlechterung der Ergebnisqualität

Bei LLM und Foundation Models anderer Art (VAE, GMM) kann es durch das andauernde Training in der laufenden Nutzung zur dauerhaften, bis zur Unbrauchbarkeit reichenden, Verschlechterung der Ergebnisqualität kommen (Modellkollaps, model collapse). Dies kann auch nachfolgende Modellversionen betreffen, die mit einem zunehmenden Anteil künstlich generierter Trainingsdaten erstellt werden, da eine Vorsortierung in der Regel durch Webscraping erlangter Daten bisher als zu aufwändig erscheint.^[8]

Wikipediaquellen als Trainingsdaten für LLM

Um Fehlinformation durch mit Webinhalten trainierte LLM vorzubeugen, schlugen Forscher der Stanford-Universität 2024 WikiChat vor, ein vorrangig Wikipedia als Wissensbasis nutzendes Sprachmodell.^[9] Eine GPT-4-Implementierung habe demnach höhere inhaltliche Richtigkeit aufgewiesen als GPT-4 allein.^[10]

Siehe auch

Quellennachweise

↑ Better language models and their implications. Abgerufen am 15. Januar 2024 (englisch).
↑ Rick Merritt: What Is a Transformer Model? 25. März 2022, abgerufen am 15. Januar 2024 (englisch).
↑ Ashish Vaswani et al: Attention is all you need. (PDF) Google, abgerufen am 5. Februar 2024 (englisch).
↑ Rob Toews: Transformers Revolutionized AI. What Will Replace Them? Abgerufen am 5. Februar 2024 (englisch).
↑ Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio: Neural Machine Translation by Jointly Learning to Align and Translate. In: Arxiv. 1. September 2014, abgerufen am 5. Februar 2024 (englisch).
↑ Multimodal Learning: Die Technik, die die künstliche Intelligenz revolutioniert. In: Weiterbildung Data Science | DataScientest.com. 17. August 2023, abgerufen am 24. Juni 2024 (deutsch).
↑ Armen Aghajanyan, Lili Yu, Alexis Conneau, Wei-Ning Hsu, Karen Hambardzumyan, Susan Zhang, Stephen Roller, Naman Goyal, Omer Levy, Luke Zettlemoyer: Scaling Laws for Generative Mixed-Modal Language Models. 10. Januar 2023, doi:10.48550/ARXIV.2301.03728.
↑ Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, Yarin Gal: AI models collapse when trained on recursively generated data. In: Nature. Band 631, Nr. 8022, 25. Juli 2024, ISSN 0028-0836, S. 755–759, doi:10.1038/s41586-024-07566-y, PMID 39048682, PMC 11269175 (freier Volltext) – (nature.com [abgerufen am 27. Juli 2024]).
↑ Sina J. Semnani, Violet Z. Yao, Heidi C. Zhang, Monica S. Lam: WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia. 2023, doi:10.48550/ARXIV.2305.14292, arxiv:2305.14292.
↑ WikiChat. In: Open Virtual Assistant Lab. Stanford University, abgerufen am 6. Februar 2024 (englisch).

Seiten-Information

Wikipedia2Wikiversity

Diese Seite wurde auf Basis der folgenden Wikipedia-Quelle erstellt:

[1] Better language models and their implications. Abgerufen am 15. Januar 2024 (englisch).

[2] Rick Merritt: What Is a Transformer Model? 25. März 2022, abgerufen am 15. Januar 2024 (englisch).

[3] Ashish Vaswani et al: Attention is all you need. (PDF) Google, abgerufen am 5. Februar 2024 (englisch).

[4] Rob Toews: Transformers Revolutionized AI. What Will Replace Them? Abgerufen am 5. Februar 2024 (englisch).

[5] Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio: Neural Machine Translation by Jointly Learning to Align and Translate. In: Arxiv. 1. September 2014, abgerufen am 5. Februar 2024 (englisch).

[6] Multimodal Learning: Die Technik, die die künstliche Intelligenz revolutioniert. In: Weiterbildung Data Science | DataScientest.com. 17. August 2023, abgerufen am 24. Juni 2024 (deutsch).

[7] Armen Aghajanyan, Lili Yu, Alexis Conneau, Wei-Ning Hsu, Karen Hambardzumyan, Susan Zhang, Stephen Roller, Naman Goyal, Omer Levy, Luke Zettlemoyer: Scaling Laws for Generative Mixed-Modal Language Models. 10. Januar 2023, doi:10.48550/ARXIV.2301.03728.

[8] Ilia Shumailov, Zakhar Shumaylov, Yiren Zhao, Nicolas Papernot, Ross Anderson, Yarin Gal: AI models collapse when trained on recursively generated data. In: Nature. Band 631, Nr. 8022, 25. Juli 2024, ISSN 0028-0836, S. 755–759, doi:10.1038/s41586-024-07566-y, PMID 39048682, PMC 11269175 (freier Volltext) – (nature.com [abgerufen am 27. Juli 2024]).

[9] Sina J. Semnani, Violet Z. Yao, Heidi C. Zhang, Monica S. Lam: WikiChat: Stopping the Hallucination of Large Language Model Chatbots by Few-Shot Grounding on Wikipedia. 2023, doi:10.48550/ARXIV.2305.14292, arxiv:2305.14292.

[10] WikiChat. In: Open Virtual Assistant Lab. Stanford University, abgerufen am 6. Februar 2024 (englisch).

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]