Personalisierte KI fürs Literaturübersetzen– eine Fallstudie

Personalisierte KI fürs Literaturübersetzen – eine Fallstudie

Damien Hansen berichtet über Experimente mit einem spezifisch für Literatur trainierten Maschinenübersetzungssystem und die Auswirkungen auf den Output.

07. Juni 2024

Hier geht es zum Originalbeitrag auf Englisch: Customized MT engines for literary translators – A case study


Die meisten Übersetzungstools auf dem Markt scheinen ohne Rücksicht auf die Ansprüche literarischer Texte entwickelt worden zu sein. Könnten Übersetzer:innen daher eigene Engines für maschinelle Übersetzung trainieren? Zusammen mit der Literaturübersetzerin Nathalie Serval machte der Translationswissenschaftler Damien Hansen die Probe aufs Exempel – wir ließen uns davon berichten und stellten noch einige Zwischenfragen.

 

Wohl oder übel haben wir uns an den Hype um maschinelles Übersetzen (MÜ) gewöhnt, und der Auftrieb, für den zuletzt die großen Sprachmodelle (large language models, LLMs) sorgten, änderte die Lage nur insofern, als die Öffentlichkeit nun besser mit den Problemen vertraut ist, die Übersetzer:innen schon seit Jahren beschäftigen. Die Entwicklung hat inzwischen einen Punkt erreicht, an dem der Einsatz von Translationstechnik auch für literarische Arbeiten vermehrt in Erwägung gezogen wird: Google und Tencent forschen dazu,[1] einzelne Sprachmittler:innen spezialisieren sich bereits auf literarisches Post-Editieren, und bestimmte Verlage stellen sich mehr oder weniger aktiv auf dieses Verfahren ein, wenn sie es nicht gar regelrecht forcieren.

Zu Beginn unseres Forschungsprojekts hätte man eine derart rasante KI-Entwicklung zwar nicht für möglich gehalten, doch nun ist es umso wichtiger, etwaige Probleme zu adressieren und zu reflektieren. Unsere Studie[2] wollte objektiv ermitteln, wozu MÜ in der Lage – oder nicht in der Lage – ist, wenn sie es mit literarischen Texten zu tun bekommt. Dafür trainierten wir ein dediziertes MÜ-Tool.

 

Warum hielten Sie es für nötig, für das literarische Übersetzen eine eigene Engine zu trainieren?

Die Evaluierung bestehender Werkzeuge ist sicher wichtig. Man darf aber nicht vergessen, dass MÜ-Systeme auf relevante Daten angewiesen sind, die also beispielsweise aus dem Bereich stammen, in dem die Engine zum Einsatz kommen soll. Daher erschien uns das Training einer eigenen Engine notwendig, denn wir wollten das grundsätzliche Potenzial maschineller Literaturübersetzung erproben. Für die Fallstudie adaptierten wir unser System nicht nur auf literarische Daten, sondern auch auf ein spezifisches Genre und eine bestimmte Übersetzerin: Unser »Fall« ist eine Fantasy-Saga, die von Nathalie Serval ins Französische übersetzt worden ist. Dieses Vorgehen erschien uns beim Aufbau des Trainingskorpus einfach logisch. Das Ganze funktionierte dann aber auf Anhieb überraschend gut, sodass wir uns nun für spezifische Systeme einsetzen, die von den Übersetzer:innen selbst trainiert werden können.

 

Zum Glück widmen sich immer mehr Studien den zahlreichen Facetten maschineller Literaturübersetzung. Mit ihrer Kollegin Marion Winters veröffentlicht Dorothy Kenny demnächst einen Überblick zu dem Thema, sie konzentrieren sich dabei auf Fragen der Personalisierung und des Stils.[3] In unserer Studie konnten wir feststellen: Der Output hatte sich hinsichtlich lexikalischer Vielfalt und syntaktischer Umstellungen an Nathalie Servals Arbeiten angenähert, das System hatte Muster jenseits der Wortebene, hatte Verdichtungsstrategien und so weiter »gelernt« – und doch war es noch sehr weit davon entfernt, das Niveau einer menschlichen Übersetzung zu erreichen.

 

Wie viele Daten benötigt man für das Personalisieren einer spezifischen Engine für Literatur? In Ihrem Experiment waren das sechs Bücher, die Nathalie Serval übersetzt hat?

Anfangs, ja. Wir verwendeten 6 Bücher aus derselben Reihe (insgesamt 45.000 Segmente), zusätzlich zu den 4 Millionen allgemeinen Segmenten in unserem generischen und den 550.000 literarischen Segmenten in unserem spezifischen Korpus – das System sollte sich dann am siebenten und letzten Band der Reihe beweisen. Mit dem personalisierten System ließ sich der Output in sehr beträchtlichem Maße verbessern. Doch es zeigte sich, dass wir noch sehr viel mehr Daten brauchen, denn die Systeme werden heute meist mit Dutzenden Millionen Segmenten trainiert. Wir speisten einen größeren und vielfältigeren Korpus literarischer Texte ein, wobei Servals Arbeiten weiterhin den Fokus bildeten – mit dem Ergebnis, dass der Output zwar flüssiger wurde, Servals persönlicher Stil aber zurücktrat. Wir haben also die optimale Balance noch nicht gefunden. Allerdings handelte es sich um einen prototypischen Versuch, mit dem sich bereits zeigen ließ, dass eine individuelle Anpassung nicht nur ein möglicher, sondern ein vielversprechender Ansatz ist – vor allem, wenn die Übersetzer:innen dabei die Rechte an ihren Daten nicht aufgeben müssen.

 

Nun ist es so, dass ein optimiertes MÜ-Tool keineswegs die Lösung für alle Probleme maschineller Literaturübersetzung darstellt. Daher führten wir ein weiteres Experiment mit Serval durch, für das Prof. Kenny von unschätzbarer Hilfe war. (Ihre mit Winters durchgeführte Studie zum Post-Editing literarischer Texte mit dem Übersetzer Hans Christian Oeser hatte uns inspiriert.)[4] Schnell erwies sich, dass qualitative Aspekte nicht zu größeren Problemen führten – als erfahrene Übersetzerin kann Serval mit vorliegendem Material jeder Art arbeiten –, der Arbeitsprozess selbst jedoch das Übersetzen nicht nur komplizierter und zeitaufwändiger gestaltet, sondern mit der Segmentierung und überhaupt dem Vorliegen eines vorübersetzten Textes auch viel weniger Freiraum bietet. Letztlich kamen wir zu dem Schluss, dass man zwar MÜ sinnvoll bei der Literaturübersetzung einsetzen kann (zur Inspiration, zur Gegenüberstellung verschiedener Lösungen etc.), dass es aber einer anders gestalteten und weniger raumgreifenden Integration der MÜ bedarf. Unsere Überlegungen sind für den Einsatz von Übersetzungstechnologien in künstlerischen Sparten von Bedeutung und könnten sich auch für andere Bereiche als hilfreich erweisen, allerdings stehen wir noch ganz am Anfang.

 

Wie konnten Sie und Nathalie Serval die Output-Qualität Ihrer Engine bewerten?

Das haben wir vor Beginn des Experiments ausführlich besprochen: Ich war mir natürlich im Klaren, dass geläufige Post-Editing-Verfahren aufgrund ihrer Vorprägungseffekte und einengenden Vorgaben, wie sie die Forschung bereits nachgewiesen hat,[5] für kreative Texte nicht geeignet sind. Dennoch waren wir uns einig, dass klassisches Post-Editing für Serval die einfachste Möglichkeit bot, sich mit dem Tool vertraut zu machen und damit zu arbeiten. Darauf war sie auch persönlich sehr neugierig. Also hat Serval einige Abschnitte aus mehreren Kapiteln eines Buches post-editiert, das sie vor rund zehn Jahren mitübersetzt hat. Das Ganze ging mit einem handelsüblichen CAT-Tool vor sich, in dem Plug-ins von unserem MÜ-Tool und von DeepL aktiviert waren. Demnächst wollen wir erforschen, ob eine andere Umgangsweise und Implementierung der maschinellen Übersetzung einige der Unannehmlichkeiten mindern kann, auf die wir hier gestoßen sind.

 

In letzter Zeit interessieren sich Literaturübersetzer:innen zunehmend für den Einsatz von großen Sprachmodellen (large language models, LLMs). Natürlich haben die Leute deren Performance beim Übersetzen umgehend ausprobiert, aber es ist doch nicht einfach, Schlüsse aus den vorläufigen und widersprüchlichen Ergebnisse zu ziehen: Als gesichert kann wohl gelten, dass wir mit LLMs auf der Absatzebene und nicht mehr auf der Ebene einzelner Sätze operieren, und dass die Qualität immer dann stark abfällt, wenn nicht das Englische Zielsprache ist. Ich habe LLMs mit Französisch ausprobiert und wurde herb enttäuscht: Die Sprachmodelle machten einfache Übersetzungsfehler, über die MÜ schon jahrelang hinweg ist. Trotz allem meine ich, wenn man sie denn anders einsetzen würde, bieten LLMs vielversprechende Perspektiven.

 

Warum sollte man eine spezifische Engine auf literarisches Übersetzen trainieren, anstatt einfach bestehende LLMs wie ChatGPT zu nutzen?

Zunächst besteht der Vorteil eines MÜ-Systems darin, dass es sich leichter kontrollieren, trainieren und personalisieren lässt – und dass es speziell fürs Übersetzen konzipiert wurde, wodurch es als verlässlicher gelten kann. Die Zeit wird zeigen, ob sich LLMs leichthin für Übersetzungsaufgaben feintunen lassen oder nicht; wie gesagt: Die Forschung steht hier noch ganz am Anfang. Meiner Meinung nach bieten diese Tools schon heute interessante Möglichkeiten, sobald wir sie nicht als MÜ-Engine begreifen, sondern als Texterzeugungstool, mit dem man interagieren und das man befragen kann, um dann selbst eine Entscheidung zu treffen (bspw. also nach Kontextbeispielen für einen Begriff zu fragen und diese dann in einem anderen Stil oder mit anderem Satzbau zu prompten, etc.). Natürlich muss man dafür – und das kann recht zeitaufwändig sein – die Prompts verfeinern und die unterschiedlichen Outputs vergleichen. Egal auf welchem Gebiet, man sollte beim Einsatz der großen Sprachmodelle stets auf der Hut sein.

 

Im Grunde verwenden die großen Sprachmodelle dieselbe Technik wie MÜ-Systeme, benötigen aber sehr viel mehr Daten. Dafür sind sie in der Lage, verschiedene Aufgaben zu lösen, bringen allerdings auch neue und größere Probleme mit sich. Bereits die MÜ rief Kritiker:innen auf den Plan, die Lese-Erlebnis, Kreativität und übersetzerische Stimme, ja letztlich Vergütung und Anerkennung für Übersetzungsarbeit gefährdet sahen. LLMs bergen noch größere Risiken hinsichtlich Transparenz, (Umwelt-)Kosten und Nachvollziehbarkeit, zudem sind sie anfälliger für das Unterschlagen von Informationen und für sogenannte Halluzinationen, sprich: die Ausgabe frei erfundener oder unsinniger Inhalte. Ein weiterer wichtiger Aspekt sind die Daten, die für das Training dieser Systeme verwendet werden.

 

Welche Trainingsdaten verwenden quelloffene Online-Engines?

Ein Großteil der Daten für generische MÜ-Systeme kann aus Repositorien wie der OPUS-Datenbank heruntergeladen werden, die Korpora mit vielen Sprachenpaaren aus verschiedensten Bereichen enthält (Presse- und Fachartikel, Patente, EU- und Regierungsdokumente, Untertitel etc.). Darauf stützten wir uns für unseren allgemeinen, unspezifischen Korpus. Da ein Teil unseres generischen Outputs sehr nah an DeepL herankam, können wir wohl davon ausgehen, dass sie mehr oder weniger dieselben Daten verwenden, die sie dann wahrscheinlich um eigene Daten ergänzen. Ein Open-Source-Framework als Grundlage einer personalisierten Engine zu verwenden – wir nutzten OpenNMT, mit OPUS-MT soll es noch einfacher gehen –, hat den Vorteil, dass man den Input bis ins Detail bestimmen und auf passende Qualitätsdaten setzen kann.

Bei LLMs liegen die Dinge ganz anders. Teils weil wir nur sehr begrenzte Einblicke haben, teils weil das notwendige Datenvolumen exponenziell größer ist. Wir wissen aber, dass man sehr stark auf Crawling gesetzt hat, um möglichst viele Daten zu sammeln – dazu gehören gemeinfreie Werke, aber auch Daten mit personenbezogenen Informationen, Bestände mit Nutzungsvorbehalt, urheberrechtlich geschützte Materialien etc. Selbst offene Sprachmodelle, die aus Transparenzgründen vollständig online stehen, verwenden frei verfügbare Repositorien urheberrechtlich geschützter Bücher. Auch Google erklärte, man habe die eigene E-Book-Datenbank für die MÜ-Engine genutzt – das Problem ist also nicht neu, es hat aber inzwischen beispiellose Ausmaße angenommen. Mit kostspieligen Klagen rechnen die Betreiberfirmen nicht, denn die Daten werden einer umfänglichen Transformation unterzogen, und der Gesamtprozess ist ziemlich undurchsichtig.

 

Die Forschung wendet sich diesen urheberrechtlichen Problemen in den MÜ-Trainingsdaten nun zu, und die LLMs sind sicher als Nächstes an der Reihe.[6] Jedenfalls werden diese Themen auch für die Zunft immer wichtiger, sie werden in Vertragsverhandlungen und in der Übersetzerausbildung eine Rolle spielen, sollten aber auch gemeinschaftlich angegangen werden – idealerweise in Zusammenarbeit mit Vertreter:innen anderer Berufe.
 

Fußnoten

[1] Siehe bspw. den jüngsten WMT-Schwerpunkt (https://www2.statmt.org/wmt23/literary-translation-task.html).

[2] Hansen, Emmanuelle Esperança-Rodier. Human-Adapted MT for Literary Texts: Reality or Fantasy?. NeTTT (Juli) 2022, S. 178-190 (https://hal.science/hal-04038025/document).

[3] Kenny & Winters, „Customization, Personalization and Style in Literary Machine Translation“, in: Translation, Interpreting and Technological Change: Innovations in Research, Practice and Training, hrsg. v. Winters, Deane-Cox und Böser, London: Bloomsbury 2024 (angekündigt).

[4] Vgl. Oeser, „Duel with DeepL. Literary translator Hans-Christian Oeser on machine translation and the translator’s voice“, in: Counterpoint 4 (2030), S. 20–24 (https://www.ceatl.eu/wp-content/uploads/2020/12/Counterpoint_2020_04.pdf).

[5] Guerberof-Arenas & Toral (2022), „Creativity in Translation: Machine Translation as a Constraint for Literary Texts“, in: Translation Spaces 11 (2), S. 184–212.

[6] Siehe etwa „Foundation Models and Fair Use“ von Henderson et al. (2023, https://arxiv.org/abs/2303.15715).

 

Damien Hansen ist Doktorand am Interdisziplinären Forschungszentrum für Translationswissenschaften (CIRTI) der Universität Liège und in der Study Group for Machine Translation and Automated Processing of Languages and Speech (GETALP) des LIG an der Universität Grenoble. Seine Dissertation widmet sich insbesondere der maschinellen Literaturübersetzung; frühere Forschungsschwerpunkte bildeten die computerunterstützte Literaturübersetzung (CALT), Entwicklung und Wahrnehmung der Translationstechnik sowie MÜ in der Spielelokalisierung und die Videospielsemiotik. Weitere Informationen über seine Arbeit finden sich auf der Website https://hansenda.github.io, auf X (Ex-Twitter) @LiteraryLudeme sowie auf LinkedIn linkedin.com/in/damien-hansen.

Die Übersetzung fertigte Andreas G. Förster, die Fragen stellte Heide Franck.

 

Beitragsbild: kokoshka