Luxemburgensia

Wenn der Computer Béchamelszooss kenntAlso nicht per Hand!

d'Lëtzebuerger Land vom 12.07.2001

In der Einführung eines Kolloquiums über die luxemburgische Sprache Ende nächsten Monats auf dem 34. Kongress der Societas linguistica europaea schreiben Claudine Moulin-Fankhänel und Damaris Nübling selbstbewusst: "Aus linguistischer Sicht ist das Luxemburgische als eine junge westgermanische Kleinsprache zu betrachten, die seit einigen Jahren einen intensiven Emanzipations-, Ausbau- und Standardisierungsprozeß erfährt (siehe z.B. die Orthographiereform vom August 1999). Damit einher geht ein beträchtlicher Zuwachs des Luxemburgischen in der Literatur und an Präsenz in Medien, Politik und Schulen. In linguistischer Hinsicht handelt es sich um die am wenigsten erforschte germanische Sprache."

Als eine der neuesten Etappen in dem beschriebenen Prozess wird nun sogar an einem Korrekturprogramm, einem Spell checker für Computer gearbeitet, das in einem Textverarbeitungsprogramm wie Word von Microsoft die noch zahlreichen Rechtschreibefehler der Luxemburger verbessern soll.

Das Projekt Cortina, Correction orthographique informatique appliquée à la langue luxembourgeoise, wurde im Juni letzten Jahres in Zusammenarbeit zwischen dem Centre de recherche public Gabriel Lippmann unter Leitung von Pierre Mousel und dem Conseil permanent de la langue luxembourgeoise (CPLL) unter der Leitung von Georges Wirtgen begonnen. Derzeit ist das christlichsoziale Kultur-, Hochschul- und Forschungsministerium alleine zuständig für das Projekt, nachdem sich während des ersten Jahres auch das liberale Erziehungsministerium beteiligt hatte. Soeben wurde das im letzten Monat ausgelaufene Projekt bis Juni 2002 verlängert.

Dabei gibt es bekanntlich nichts Neues unter der Sonne: Die hauptstädtische Firma Silis S.à r. l. hatte in den Achtzigerjahren das vorübergehend von Staat und Gemeinden eingesetzte Textverarbeitungsprogramm Epistole PC und Interscript Epistole PC entwickelt, das mit einem Wörterbuch und Korrekturprogramm in Luxemburger Sprache warb (siehe d'Land vom 29.11.96).

Die Arbeiten an dem Korrekturprogramm werden dadurch nicht einfacher, dass das Luxemburgische Eigenarten besitzt, welche anderen germanischen Sprachen fehlen. So soll der Spell checker können, was die meisten Luxemburger beim Schreiben nicht beherrschen: die Eifeler Regel. Sie besagt, dass das -n am Ende der Wörter verschwindet, je nachdem mit welchem Buchstabe das folgende Wort beginnt. Der Unterschied also zwischen en neien Zonk und e grousse Kuerf.

Diese Funktion, die über die einfache Rechtschreibekontrolle hinausgeht, wird zwar von dem luxemburgischen Korrekturprogramm erwartet. Aber das englische Korrekturprogramm von Microsoft weiß beispielsweise nicht, ob es a orange oder an orange heißt. Ein wenig Pionierarbeit wird schon von Informatiker Yannick Durand verlangt.

Anfangs glaubte man, die Eifeler Regel als einfachen Algorithmus einprogrammieren zu können: -n vor Vokalen und n, d, t, h und z. Aber schnell  musste man feststellen, dass es jede Menge Ausnahmen gibt. Also mussten sämtliche Wörter indiziert werden.

Eigentlich könnte diese Indizierung automatisiert werden, indem man den Computer die Häufigkeit des Gebrauchs des -n am Ende der entsprechenden Wörter in luxemburgischen Texten messen lässt. Aber dafür ist die zur Ausarbeitung neuer Wörterbücher zusammengetragene Sammlung geschriebener und gesprochener Texte des Conseil permanent de la langue luxembourgeoise mit eineinhalb Millionen Wörtern noch zu gering. Also indizierte ein Praktikant aus Trier, Johannes Kiehl, die Wörterliste des künftigen Korrekturprogramms von Hand.

Ausgangsmaterial des Spell checkers war eine Liste von 48 000 Wörtern des Conseil permanent de la langue luxembourgeoise. Mit einem Eifer, der ihn inzwischen zum heimlichen Mister Spell checker der Nation werden ließ, hat der Linguist Jérôme Lulling sie nach der reformierten offiziellen Rechtschreibung korrigiert und auf inzwischen 75 000 Wörter ausgebaut. Dabei handelt es sich nicht um 75 000 verschiedene Vokabel, denn in einem Korrekturprogramm müssen Verben in verschiedenen Zeiten und Personen, Substantive in Einzahl und Mehrzahl und verschiedenen Fällen gespeichert sein.

Eine Testversion des Programms wurde im Frühjahr sogar schon auf Internet gesetzt und erwies sich gleich als Erfolg: Zu Hause oder am Arbeitsplatz verbesserten Luxemburgisch Schreibende insgesamt 230 000 Wörter, obwohl nicht intensiv für das Projekt geworben wurde und die Online-Korrektur noch relativ umständlich und zeitraubend ist.

Dieser Erfolg zeigt, wie groß die Erwartungen in der Öffentlichkeit sind. Und setzt die Initiatoren unter Druck, ihr Programm auf den Markt zu bringen.

Geplant ist ein Zusatzprogramm, das auf CD-Rom gekauft oder gegen Gebühr über Internet heruntergeladen und in Word für Windows von Microsoft installiert werden kann, so wie es bereits Programme für andere Sprachen oder Fachwörterbücher für Word gibt. Wie der Vertrieb organisiert wird und was der Spell checker kosten soll, ist noch nicht geklärt. Soll er rentabel oder populär werden? Offen ist auch, ob es ihn auch für andere Betriebssysteme wie zum Beispiel Macintosh geben wird.

Derzeit läuft das Testprogramm mit 48000 Wörtern online. In den nächsten Wochen sollen die auf 75000 Wörter erweitere Liste und auch die Kontrolle der Eifeler Regel zu Testzwecken über Internet zugänglich werden. Korrekturprogramme anderer Sprachen haben meist zwischen 100000 und 150000 Wörter. Aber es geht weniger darum, ein Maximum an Wörtern einzugeben, als ein Optimum herauszufinden. Wenn ein Korrekturprogramm zu viele Wörter enthält, werden Rechtschreibfehler immer häufiger mit entlegenen Begriffen verwechselt. Dabei kann das deutsche Korrekturprogramm von Microsoft nicht einmal zwischen dem richtigen und falschen Gebrauch von Maße und Masse, wieder und wider unterscheiden.

Ein Korrekturprogramm stellt eine entscheidende Etappe zur Normierung des Luxemburgischen  dar. Weil es einerseits die individuellen Phantasierechtschreibungen ausgrenzt, aber auch, weil es die lokalen Varianten zurückdrängt. Auch das reichste Land der Welt bringt wohl kaum Korrekturprogramme für Miseler und Donkelser auf den Markt.

Doch sollen in der Regel wissenschaftliche Wörterbücher eine Sprache normieren, denen sich dann technische Hilfsmittel wie Korrekturprogramme anpassen. Hierzulande kommt es aber nun dazu, dass die Arbeiten des Conseil permanent de la langue luxembourgeoise an einer Generation neuer Wörterbücher zwar begonnen haben, aber naturgemäß länger dauern als die Fertigstellung des Korrekturprogramms. Manche Linguisten befürchten deshalb, dass das Korrekturprogramm vor den neuen Wörterbüchern auf den Markt kommt und sich in der Praxis so schnell durchsetzt, dass sich die Wörterbücher nur noch der Schreibweise des Korrekturprogramms anpassen können. 

Denn entgegen anders lautenden Behauptungen besitzt auch die vor zwei Jahren reformierte Orthographie noch manche Grauzonen. Besonders vertrackt ist beispielsweise der im Luxemburgischen sehr flexible Umgang mit Fremd- und Lehnwörtern. Schreibt man Béchamelszooss, Jeepspneuen und Projets-de-loien wirklich so? Auch die Reform von 1999 klärt nicht verlässlich, wann beispielsweise ein französisches Wort so weit eingebürgert ist, dass es statt der Original- eine verluxemburgischte Schreibweise bekommt ? die Entwicklung von Parapluie bis Präbbeli.

Seit der Sprachenklausel des neuen Nationalitätengesetzes befürchten ganz misstrauische Linguisten aber auch, dass sie im nationalen Identitätsfimmel missbraucht werden sollen, um die Instrumente zur Normierung und Automatisierung der staatliche Einwanderungspolitik zu liefern.

Vielen Dank für den differenzierten und sachkundigen Bericht über den neuen "Spellchecker" für das Lëtzebuergesche (d'Land n° 28/01)! Sie haben recht, die "Eifeler Regel" - der Ausfall von -n am Ende mancher Silben - ist ein neues und im Detail ziemlich kniffliges Problem für ein Computerprogramm. Vielleicht ist nun bei manchen Lesern der Eindruck entstanden, eine "computerisierte" Lösung sei generell unmöglich. Das wäre falsch.

In meiner von der Universität Trier und dem Centre de recherche rublic - Gabriel Lippmann gemeinsam betreuten Examensarbeit habe ich untersucht, wie sich Methoden des maschinellen Lernens auf dieses Problem anwenden lassen. Bei diesem Verfahren "lernt" der Computer Regeln, indem er Beispiele aus einer Textsammlung verallgemeinert: So abstrahiert die Software aus einigen hundert Verwendungsbeispielen von Wörtern wie Bakenzänn, Hänn, Kapitän und Schallschutzwänn die Regel "Bei Substantiven mit einem Silbenreim auf -än/-änn findet kein -n-Ausfall statt".

Mit diesem Trick - der Generalisierung von Beispielen - lassen sich zwei Grundschwierigkeiten jeder informatischen Sprachanalyse überwinden: Einmal, dass man immer unzufrieden mit dem Umfang der verfügbaren Textcorpora ist, und zum anderen die Kreativität der Sprachbenutzer, die ja laufend neue Wörter zusammensetzen, entlehnen oder erfinden.

Bei Cortina haben wir mit diesem Verfahren bereits gute Ergebnisse erzielt. Zuletzt konnte ein Teilwörterbuch mit  rund 20 000 neuen Einträgen automatisch vom Rechner - also nicht per Hand! - um die "Eifeler Regel" ergänzt werden.

Johannes Kiehl

Student im Fach Linguistische Datenverarbeitung

Universität Trier

© 2023 d’Lëtzebuerger Land