Latent Dirichlet allocation (LDA) ist ein von David Blei, Andrew Ng und Michael I. Jordan im Jahre 2003 vorgestelltes Bayessches Netz (und somit ein generatives Probabilistisches graphisches Modell) für die Themenmodellierung, welches der Einordnung von Dokumenten in Themen dient. Das Modell ist identisch zu einem 2000 publizierten Modell zur Genanalyse von J. K. Pritchard, M. Stephens und P. Donnelly. Dokumente sind in diesem Fall gruppierte, diskrete und ungeordnete Beobachtungen (im Folgenden „Wörter“ genannt). In den meisten Fällen werden Textdokumente verarbeitet, in denen Wörter gruppiert werden, wobei die Wortreihenfolge keine Rolle spielt. Es können aber auch z. B. Pixel aus Bildern verarbeitet werden.
Generierender Prozess
LDA modelliert Dokumente durch ein Bayessches Netz:
Zunächst wird die Anzahl der Themen durch den Benutzer festgelegt.
Die Dokumentensammlung enthält unterschiedliche Terme, die das Vokabular bilden. Zunächst werden Multinomialverteilungen über alle Terme aus Dirichlet-Verteilungen gezogen, diese Verteilungen werden „Themen“ (englisch topics) genannt.
Für jedes Dokument wird eine Verteilung über die Themen aus einer Dirichlet-Verteilung gezogen. Ein Dokument enthält also mehrere Themen. Durch eine generierende Dirichlet-Verteilung mit Parametern kann die Annahme ausgedrückt werden, dass Dokumente nur wenige Themen enthalten. Diese Annahme ist die einzige Neuerung von LDA im Vergleich zu vorherigen Modellen und hilft bei der Auflösung von Mehrdeutigkeiten (wie etwa beim Wort „Bank“). Die Steigerung der Themen-Qualität durch die angenommene Dirichlet-Verteilung der Themen ist deutlich messbar.
Anschließend wird für jedes Wort aus einem Dokument ein Thema gezogen und aus diesem Thema ein Term. Für die Zufallsvariablen bedeutet das:
Das LDA Modell im Bild lässt sich in folgende Formel für die Wahrscheinlichkeit übersetzen:
mit:
- die Anzahl der Dokumente
- die Anzahl der Wörter in einem Dokument
- α ist der Parameter der Prior-Dirichlet-Verteilung der Themen pro Dokument
- β ist der Parameter der Prior-Dirichlet-Verteilung der Wörter pro Thema
- ist die Themenverteilung für Dokument i
- ist die Wortverteilung für Thema k
- ist das Thema des j-ten Wortes in Dokument i
- ist das j-te Wort in Dokument i
Eigenschaften
In LDA wird jedes Dokument als eine Mischung von verborgenen Themen (engl. latent topics) betrachtet. Jedes Wort im Dokument ist einem Thema zugeordnet. Diese Themen, deren Anzahl zu Beginn festgelegt wird, erklären das gemeinsame Auftreten von Wörtern in Dokumenten. So kommen in Zeitungsartikeln die Wörter „Euro, Bank, Wirtschaft“ oder „Politik, Wahl, Parlament“ jeweils häufig gemeinsam vor. Diese Mengen an Wörtern haben dann jeweils eine hohe Wahrscheinlichkeit in einem Thema. Wörter können auch in mehreren Themen eine hohe Wahrscheinlichkeit haben.
LDA wird u. a. zur Analyse großer Textmengen, zur Textklassifikation, Dimensionsreduzierung oder dem Finden von neuen Inhalten in Textkorpora eingesetzt. Andere Anwendungen finden sich im Bereich der Bioinformatik zur Modellierung von Gensequenzen.
Siehe auch
Literatur
- David M. Blei, Andrew Y. Ng, Michael I. Jordan: Latent dirichlet allocation. In: Journal of Machine Learning Research, Jg. 3 (2003), S. 993–1022, ISSN 1532-4435
- David M. Blei: Probabilistic Topic Models. In: Communications of the ACM, (2013), vol 55/4, S. 77–84.
Weblinks
- LDA Implementierung in C von David Blei.
Einzelnachweise
- ↑ David M. Blei, Andrew Y. Ng, Michael I Jordan: Latent Dirichlet Allocation. In: Journal of Machine Learning Research. 3. Jahrgang, Nr. 4–5, Januar 2003, S. 993–1022, doi:10.1162/jmlr.2003.3.4-5.993 (mit.edu).
- ↑ J. K. Pritchard, M. Stephens, P. Donnelly: Inference of population structure using multilocus genotype data. In: Genetics. 155. Jahrgang, Nr. 2, Juni 2000, ISSN 0016-6731, S. 945–959 (genetics.org).
- ↑ Mark Girolami, Kaban, A.: On an Equivalence between PLSI and LDA. Proceedings of SIGIR 2003. Association for Computing Machinery, New York 2003, ISBN 1-58113-646-3 (englisch, bham.ac.uk [PDF]).