Tatoeba
Sammlung von Beispielsätzen

Sprachen

415 (Stand: Dezember 2022)

Betreiber

Association Tatoeba

Artikel

über 10,8 Millionen (Stand: Dezember 2022)

Benutzer

über 64.100 (Stand: Dezember 2022)

Registrierung

nicht zur Benutzung, nur zur Mitarbeit erforderlich

Online

2006

http://tatoeba.org/deu

Tatoeba ist ein Projekt, dessen Name aus dem Japanischen stammt und „zum Beispiel“ bedeutet.

Tatoeba besteht aus einem großen Bestand exemplarischer Sätze, die in nahezu alle vorhanden Sprachen übersetzt sind. Es funktioniert als vielsprachiges Übersetzungs-Wörterbuch, in dem man nicht die Übersetzung eines Wortes findet, sondern vollständige Sätze in authentischer Landessprache, in denen das gesuchte Wort vorkommt. Jeder registrierte Anwender kann hierbei sowohl Sätze hinzufügen als auch Sätze übersetzen. Der Textkorpus ist nicht fehlerfrei, so kann jeder Anwender Sätze in jeder Sprache übersetzen ganz gleich, ob er die Sprache beherrscht oder nicht. Die Satzeinträge werden nach und nach durch Tondateien ergänzt.

Die Textsammlung von Tatoeba basiert auf dem Korpus Tanaka, einer großen Sammlung von parallelen Sätzen in Japanisch und Englisch. Seit 2006 wurden unter Leitung von Trang Ho viele andere Sprachen hinzugefügt.

Struktur

Die Sätzesammlung ist wie ein Graph mit Knoten und Pfeilen strukturiert: Jeder Knoten repräsentiert einen Satz, und jeder Pfeil repräsentiert die Verbindung zwischen zwei Sätzen. Wenn zwei Sätze direkt verbunden sind, haben sie die gleiche Bedeutung.

Netzwerk

Das Netzwerk bietet eine Reihe von Möglichkeiten, Sätze zu suchen und zu bearbeiten. Jeder angemeldete Nutzer kann neue Sätze hinzufügen, übersetzen, kommentieren, mit Stichworten versehen und wenn nötig nachträglich bearbeiten. Die Beispielsätze werden in allen jeweils verfügbaren Sprachen untereinander angeordnet dargestellt.

Preise

Tatoeba erhielt im Dezember 2010 ein Stipendium von Mozilla Drumbeat.

Einige Arbeiten an der Tatoeba-Infrastruktur wurden vom Google Summer of Code, 2014, gefördert.

Im Mai 2018 erhielt das Projekt einen Zuschuss von 25.000 US-Dollar durch das Mozilla Open Source Support (MOSS) Programm.

Im August 2019 erhielt das Projekt einen Zuschuss von 15.000 US-Dollar durch das Mozilla Open Source Support (MOSS) Programm.

Statistik

Mit Stand Dezember 2022 waren 415 Sprachen vertreten. Von insgesamt über 10,8 Mio. Sätzen waren rund 1.664.000 auf Englisch und 381.000 auf Spanisch verfasst. Deutsch findet sich mit 599.000 Sätzen auf Rang 5.

Offline Verwendung

Tabulatorisch getrennte Daten von Tatoeba, die zum Import in Anki und ähnliche Software verwendet werden können, kann man herunterladen.

Einzelnachweise

  1. YOYODYNE – Where the future begins tomorrow. » Best Drumbeat Projects: Tatoeba – a free and open database of sentences. 2. Januar 2011, archiviert vom Original am 2. Januar 2011; abgerufen am 31. Oktober 2019.  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.
  2. Google Summer of Code 2014 Organization Association Tatoeba. Abgerufen am 31. Oktober 2019.
  3. Trang: MOSS award for Tatoeba. Abgerufen am 31. Oktober 2019.
  4. Trang: A second MOSS award. Abgerufen am 1. November 2019.
  5. Download-Seite für Übersetzungen. Abgerufen am 10. Dezember 2022.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.