Transformer (Maschinelles Lernen)

Ein Transformer ist eine von Google weiterentwickelte Deep Learning (DL)-Architektur, die einen sogenannten „Aufmerksamkeitsmechanismus“ (englisch attention) als Teil anderer Algorithmusartefakte einsetzt. Das Konzept wurde 2017 vorgestellt und ist Teil der Grundstruktur des generativen vortrainierten Transformers (GPT), auch bekannt als Large Language Models (LLM), sowie anderer vortrainierter Modelle. Letztere sind Modelle, die mithilfe eines großen Datensatzes trainiert wurden, um später für eine bestimmte Aufgabe eingesetzt zu werden.

Im Anwendungsfall der maschinellen Übersetzung, wird Text durch Worteinbettung (Embedding) in numerische Darstellungen in Form von Vektoren umgewandelt und statistisch weiterverarbeitet. Dies kann z. B. dazu benutzt werden, Text von einer Sprache in eine andere zu übersetzen. Dazu wird ein Transformer mittels maschinellem Lernen (ML) anhand einer (großen) Menge von Beispieltexten trainiert, bevor das trainierte Modell dann zur Übersetzung verwendet werden kann. Weitere Beispielanwendungen von Transformer-Architekturen sind die Textgenerierung oder die Zusammenfassung längerer Texte. Transformer haben sich als effizienter als Long Short-Term Memory-Architekturen (LSTM) erwiesen. Letztere Architektur (LSTM) wird beispielsweise von Google Translate seit c. 2016 eingesetzt, eine Adaption der Neural Machine Translation (NMT) durch Google (GNMT). Der Fokus des restlichen Artikels liegt jedoch auf dem Prinzip der Transformer.

↑ Damals Google Brain und Google Research. Später Google AI.
↑ Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin: Attention Is All You Need. In: ArXiv. 2. August 2023, abgerufen am 1. April 2026 (englisch, 1. Veröffentlichung im Jahr 2017 ; aktualisiert bis 2023).
↑ Zhaoyang Niu et al.: A review on the attention mechanism of deep learning. In: Neurocomputing. Band 452, 10. September 2021, ISSN 0925-2312, S. 48–62, doi:10.1016/j.neucom.2021.03.091 (englisch, sciencedirect.com [abgerufen am 4. April 2026]).
↑
↑ Philipp Koehn: Neural Machine Translation. First edition Auflage. Cambridge University Press, New York 2020, ISBN 978-1-108-60848-0 (englisch, statmt.org [abgerufen am 5. April 2026]).
↑ Felix Stahlberg: Neural Machine Translation: A Review and Survey. In: Arxiv. 29. September 2020, abgerufen am 5. April 2026 (englisch).
↑ Zhixing Tan et al.: Neural machine translation: A review of methods, resources, and tools. In: AI Open. Band 1, 2020, S. 5–21, doi:10.1016/j.aiopen.2020.11.001 (englisch, elsevier.com [abgerufen am 5. April 2026]).
↑ Shiva Ganesh: How Does Google Translate Work? In: Analytics Insight. 17. Oktober 2024, abgerufen am 5. April 2026 (englisch).

[1] Damals Google Brain und Google Research. Später Google AI.

[:4-2] Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N. Gomez, Lukasz Kaiser, Illia Polosukhin: Attention Is All You Need. In: ArXiv. 2. August 2023, abgerufen am 1. April 2026 (englisch, 1. Veröffentlichung im Jahr 2017 ; aktualisiert bis 2023).

[:3-3] Zhaoyang Niu et al.: A review on the attention mechanism of deep learning. In: Neurocomputing. Band 452, 10. September 2021, ISSN 0925-2312, S. 48–62, doi:10.1016/j.neucom.2021.03.091 (englisch, sciencedirect.com [abgerufen am 4. April 2026]).

[:5-4] ↑

[5] Philipp Koehn: Neural Machine Translation. First edition Auflage. Cambridge University Press, New York 2020, ISBN 978-1-108-60848-0 (englisch, statmt.org [abgerufen am 5. April 2026]).

[6] Felix Stahlberg: Neural Machine Translation: A Review and Survey. In: Arxiv. 29. September 2020, abgerufen am 5. April 2026 (englisch).

[7] Zhixing Tan et al.: Neural machine translation: A review of methods, resources, and tools. In: AI Open. Band 1, 2020, S. 5–21, doi:10.1016/j.aiopen.2020.11.001 (englisch, elsevier.com [abgerufen am 5. April 2026]).

[8] Shiva Ganesh: How Does Google Translate Work? In: Analytics Insight. 17. Oktober 2024, abgerufen am 5. April 2026 (englisch).