Ubuntu 12.04 Precise Pangolin
Es gibt in Apache OpenOffice für jede installierte Sprache ein vorinstalliertes Haupt-Wörterbuch und darüber hinaus einzelne Benutzerwörterbücher, die gefüllt werden, wenn man bei einem unbekannten Wort auf "Aufnehmen" klickt. Wie man in den Paketquellen vorhandene Hauptwörterbücher anderer Sprachen nachinstalliert, wird unter Rechtschreibkorrektur erklärt. Die folgende Anleitung zeigt, wie man Benutzerwörterbücher in zusätzliche Hauptwörterbücher verwandelt und diese installiert.
Die Frage, die zuerst geklärt werden muss ist, welchen Vorteil das hat:
Zwar werden Wörter aus Benutzerwörterbüchern nicht mehr als falsch gekennzeichnet, aber nur Wörter aus Hauptwörterbüchern werden für Korrekturvorschläge genutzt.
Das zusätzliche Hauptwörterbuch kann auch alle Beugungen erkennen. Zum Beispiel nicht nur "Differenz", sondern auch "Differenzen" etc.
Man kann diese als Fachwörterbücher anderen zur Verfügung stellen.
Sowohl Haupt- als auch Benutzerwörterbücher haben die Endung .dic, aber Vorsicht, sie haben verschiedene Formate!
Die vorinstallierten Haupt-Wörterbücher sind im Ordner /usr/share/myspell/dicts/ zu finden (auch wenn sie aus dem Hunspell-Paket stammen). Die deutschsprachigen Dateien heißen de_DE.dic und de_DE.aff (für AT und CH entsprechend).
Die .dic-Dateien der Hauptwörterbücher sind Klartext-Wortlisten, bei denen jedes Wort mit einem Zeilenumbruch getrennt ist. Die erste Zeile enthält die Zeilenzahl und damit die Wortzahl (plus 1, eben jene erste Zeile). Jedes Wort kann einen Zusatz, ein "Affix" haben. Die beigefügte .aff-Datei definiert die Funktionen der Affixe (Präfixe und Suffixe).
So steht zum Beispiel folgende Zeile in einem Hauptwörterbuch:
Analyseinstrument/EPS
und in der .aff finden sich unter anderem folgende Zeilen:
SFX P Y 1 SFX P 0 en SFX E Y 1 SFX E 0 e SFX S Y 1 SFX S 0 s
Die erste Zeile SFX P
gilt für alle Wörter, denen ein Suffix (SFX) P
zugeordnet ist. Das Y
bedeutet, dass dies mit weiteren Affixen kombinierbar ist und die 1
bedeutet, dass nun eine Definitionszeile kommt. Aus der nächsten Zeile folgt dann, dass jedes Wort, dem das Suffix P zugeordnet ist, auch ein "en
" angehängt werden kann. usw. Die Rechtschreibprüfung findet also nicht nur "Analyseinstrument", sondern auch "Analyseinstrumenten" (Akkusativ), "Analyseinstrumente" (Plural) und "Analyseinstrumentes" (Genitiv). Allen Wörtern, die nach diesem Schema gebildet werden sollen, wird also nun das Suffix/EPS angehängt. Das ist nur das Prinzip, es gibt noch weitere Features, die in der englischen Anleitung in der Linkliste am Ende des Artikels erklärt sind.
Diese bestehen zwar größtenteils auch aus ASCII-Zeichen, sind aber nicht mit Zeilenumbruch getrennt. Die Einträge können keine Zusätze haben, es wird also lediglich das geführte Wort erkannt. Sie befinden sich im Homeverzeichnis unter ~/.openoffice.org/3/user/wordbook/. Sie können über die Optionen in OpenOffice erstellt und gewählt werden. Nur diese Benutzerwörterbücher lassen sich direkt aus der Rechtschreibprüfung von OpenOffice ergänzen.
Wörterbücher für verschiedene Sprachen und Schreibweisen können von hier Apache Openoffice Extensions heruntergeladen werden.
Man nimmt das Benutzerwörterbuch und speichert es als Nur-Text ab und sorgt dafür, dass es nur ASCII-Wörter und Zeilenumbrüche hat. Man fügt in der ersten Zeile die Anzahl der Zeilen ein, sortiert sie alphabetisch und speichert sie als beispielsweise privat.dic in das Benutzerverzeichnis ~/.openoffice.org/3/user/wordbook. Als .aff-Datei nimmt man am besten die de_DE.aff aus /usr/share/myspell/dicts/ und speichert sie als privat.aff in das gleiche Verzeichnis wie privat.dic. Man kann den einzelnen Zeilen der Datei privat.dic Affixe gemäß der oben genannten Syntax anhängen, muss aber nicht.
igerman98 - deutsches Wörterbuch für Ispell, Myspell und Hunspell nach den neuen Rechtschreibregeln
Spell Checking and Dictionaries - Apache OpenOffice
Converting Affix Files: Understanding the Affix File Format - Apache OpenOffice
hunspell - Manpage
Diese Revision wurde am 5. Februar 2017 17:15 von aasche erstellt.