Buchstabenhäufigkeit

Die Buchstabenhäufigkeit (Graphemhäufigkeit) ist eine statistische Größe, die angibt, wie oft ein bestimmter Buchstabe in einem Text oder einer Sammlung von Texten (Korpus) vorkommt. Sie kann als absolute Anzahl oder in Relation zur Gesamtzahl der Buchstaben des Textes angegeben werden. Die Häufigkeitsverteilung der Buchstaben hängt von der jeweiligen Sprache ab. Während frühere Annahmen pauschal die statistische Verteilung der Buchstabenhäufigkeit durch das Zipfsche Gesetz vorherzusagen glaubten, hat die quantitative Linguistik gezeigt, dass eine Reihe anderer Wahrscheinlichkeitsverteilungen in Betracht zu ziehen sind. Zählungen zur Häufigkeit von Buchstaben oder Lauten in Texten oder Textkorpora sind spätestens seit dem frühen 19. Jahrhundert nachweisbar. Für manche Zwecke ist es auch interessant, wie häufig ein Buchstabe am Wortanfang oder am Wortende vorkommt.

  1. S. dazu: lql.uni-trier.de (Memento vom 7. April 2015 im Internet Archive) Buchstaben, Laute und Phoneme folgen im Prinzip den gleichen Verteilungen.
  2. Karl-Heinz Best: Laut- und Buchstabenzählungen im frühen 19. Jahrhundert. In: Glottometrics, 20, 2010, S. 110–114; ram-verlag.eu (PDF; 1,8 MB).