Wie genau sind KI-übersetzte Untertitel?

Verfasst von Patricia Magaz | 3. Mai 2023

Ein grundlegender Wandel im Medienkonsumverhalten, gepaart mit Quantensprüngen in der KI-Technologie, hat KI-generierte Untertitel zu einer beliebten und leistungsstarken Option für Live-Veranstaltungen jeder Art gemacht. Interprefy führte diese Funktion 2022 ein, und sie ist auch in Microsoft Teams und sogar in Zoom verfügbar: automatisch generierte, mehrsprachige Untertitel für Live-Meetings. Dank dieser Technologie können Nutzer Inhalte verstehen , selbst wenn sie die gesprochene Sprache nicht beherrschen.

Aber wie genau sind sie wirklich? Darauf gibt es keine einfache Antwort. Die Ergebnisse hängen stark vom gewählten Ansatz und den verwendeten Engines, der jeweiligen Sprachkombination sowie den Eigenschaften des Audiomaterials (Sprecherakzent, Audioqualität usw.) ab. Und die einfache Wahrheit ist: Es gibt keine eindeutige Methode, die Genauigkeit von Übersetzungen zu messen.

In der Übersetzungsbranche wird Qualität auf unterschiedliche Weise beschrieben. Bei dem Versuch, ein objektives Messkriterium zu finden, gab eine Forschergruppe zu , dass sie sich nicht einmal untereinander darüber einigen konnte, wie „Übersetzungsqualität“ definiert werden sollte.

Schauen wir uns genauer an, warum die Qualität von Übersetzungen so schwer zu messen ist und wie wir die Qualität maschinell übersetzter Untertitel besser messen können.

Wie automatische Untertitel in mehreren Sprachen funktionieren

Automatisch übersetzte, maschinell übersetzte und KI-übersetzte Untertitel oder mehrsprachige Untertitel sind Untertitel für Hörgeschädigte, die Nutzern in Echtzeit Untertitel parallel zur gesprochenen Sprache in einer anderen Sprache bieten. Sie werden aus dem Originalton erstellt, entweder durch eine Kombination aus automatischer Spracherkennung und maschineller Übersetzung, die einen übersetzten Text des Transkripts erzeugt, oder durch eine KI-basierte Lösung, die den Ton in der Ausgangssprache direkt in Text (oder sogar gesprochene Sprache) in der Zielsprache umwandelt.

Messung der Übersetzungsqualität

Sprache ist hochkomplex, daher ist die Qualität einer Übersetzung oft interpretationsbedürftig. Man könnte annehmen, dass Qualitätsprobleme nur dann auftreten, wenn ein Übersetzer oder eine Maschine einen Fehler macht. Tatsächlich ist es aber viel häufiger so, dass die vermeintliche Übersetzungsqualität auf einer subjektiven Einschätzung beruht.

Das Rahmenwerk für multidimensionale Qualitätsmetriken (MQM) , ein von der Europäischen Kommission geleitetes Projekt, bietet einen „funktionalistischen“ Ansatz zur Kategorisierung von Qualitätsfragen:

Genauigkeit
Stil
Flüssigkeit
Lokale Konventionen
Terminologie usw.

Deshalb stellen Organisationen Übersetzern oft Styleguides und Glossare zur Verfügung und bauen idealerweise sogar ein Translation Memory auf, um eine Konsistenz in ihren Übersetzungsarbeiten zu gewährleisten, die ihren Bedürfnissen entspricht.

Die Qualität einer Übersetzung zu messen bedeutet, zu beurteilen, wie nützlich die Übersetzung ist und wie gut sie ihren Zweck erfüllt.

Qualität der maschinellen Übersetzung für Live-Untertitel

Maschinelle Übersetzung gibt es seit über 60 Jahren, und heute arbeiten Maschinen und Menschen Hand in Hand. Doch in den letzten zwei Jahrzehnten haben Sprachdienstleister, Übersetzungsagenturen und Freiberufler die maschinelle Übersetzung verstärkt eingesetzt, um die Produktivität zu steigern und Kosten zu senken – dank der rasanten Verbesserung der Übersetzungsqualität.

Nicht alle maschinellen Übersetzungsprogramme sind gleich.

Heute gibt es eine Vielzahl von Text-zu-Text-Übersetzungsprogrammen wie Google Translate, DeepL Translate oder Microsoft Translator sowie verschiedene Arten der maschinellen Übersetzung: regelbasierte, statistische, adaptive und neuronale. Die meisten Dienste setzen mittlerweile auf die neuronale maschinelle Übersetzung, da diese sich als äußerst leistungsstark erwiesen hat und bei bestimmten Textarten die Kluft zwischen Mensch und Maschine schnell überbrückt.

Unterschiedliche Übersetzungsprogramme und verschiedene Arten der maschinellen Übersetzung liefern unterschiedliche Ergebnisse. Ein Programm kann sogar bei einer Sprachkombination hervorragende Ergebnisse erzielen, bei anderen jedoch unbrauchbare.

Echtzeit- vs. Nachbearbeitungsanforderung

Da die meisten schriftlichen Übersetzungen nicht sofort fertiggestellt werden müssen, werden die maschinell übersetzten Texte für Webseiten oder Dokumente vor der Veröffentlichung von professionellen Übersetzern geprüft und nachbearbeitet. Daher ist die beste Übersetzungs-Engine zwar eine echte Zeitersparnis, aber nicht zwingend erforderlich.

Mehrsprachige Live-Untertitel müssen jedoch in Echtzeit bereitgestellt werden, ohne dass ein menschliches Eingreifen möglich ist, bevor der Benutzer sie liest.

Daher ist es entscheidend, dass die leistungsstärksten Engines und Engine-Kombinationen verwendet werden und die Audioeingangsqualität optimal ist. Hat beispielsweise ein Sprecher einen starken Akzent und verwendet ein schlechtes Mikrofon, können selbst die besten Lösungen zu suboptimalen mehrsprachigen Untertiteln führen.

Der Interprefy-Ansatz: Benchmarking von Lösungen und Optimierung des Audioeingangs

Anstatt nur eine einzige maschinelle Übersetzungs-Engine zu verwenden, vergleicht das KI-Entwicklungsteam von Interprefy kontinuierlich führende Übersetzungslösungen sowie Kombinationen aus Spracherkennung und maschineller Übersetzung für spezifische Sprachkombinationen.

Wir arbeiten mit weltweit führenden Forschungseinrichtungen zusammen, um ein eigenes, automatisches Benchmarking-Verfahren für mehrsprachige Live-Untertitel zu entwickeln und kontinuierlich zu verbessern. Alexander Davydov, Leiter KI-Entwicklung bei Interprefy

„Wir verwenden große Mengen an unterschiedlichen Audiodaten und vergleichen die Ergebnisse verschiedener Übersetzungssysteme und Systemkombinationen mit Übersetzungen von professionellen Übersetzern. Anschließend validieren wir sie und ordnen sie nach ihrer Genauigkeit“, erklärt Alexander.

Die folgende Grafik veranschaulicht die Ergebnisse des Vergleichstests für vier Sprachen, die aus derselben Ausgangssprache übersetzt wurden. Wie Sie sehen, bietet keine der Lösungen eine gleichbleibende Qualität für alle vier Sprachpaare.

Doch selbst mit der ausgefeiltesten Lösung kann die Qualität leiden, wenn die Qualität der Eingangsdaten gering ist.

Die Tonqualität ist ein Schlüsselfaktor, der nicht nur die Qualität der KI-Ausgabe, sondern auch die Gesundheit und Leistungsfähigkeit der Dolmetscher sowie das Verständnis und die Aufmerksamkeit des Publikums beeinflusst. Deshalb arbeiten wir bei Interprefy kontinuierlich daran, die Audioqualität zu verbessern. Wir bieten Veranstaltern und Rednern hilfreiche Richtlinien , stellen Tools zur Verfügung, mit denen Redner ihre Tonqualität testen können, und haben mit Interprefy Clarifier sogar ein Tool zur Audiooptimierung entwickelt .

Darüber hinaus arbeitet unser Expertenteam mit unseren Kunden zusammen, um das System zu optimieren und Markennamen, Akronyme und mehr korrekt zu erfassen.

Vollständigen Beitrag ansehen