9 Min. Lesezeit

Audiokompression in der Fernsimultanübersetzung

Von Dora Murgu am 16. August 2022

Themen: Fernsimultandolmetschen

Tonqualität bei der Ferninterpretation

Wir haben diesen Artikel in unseren Interprefied-Podcast hochgeladen und er ist jetzt in Ihrem bevorzugten Podcast-Verzeichnis verfügbar.

Hören und laden Sie den Podcast unten herunter:

Zum Download verfügbar auf:

Die Klangqualität ist etwas, das uns den ganzen Tag begleitet. Vom Einschalten des Radios am Morgen bis zum nächtlichen Binge‑Watching der neuen Fernsehserie ist guter Sound etwas, das wir oft als selbstverständlich ansehen. Während es' normalerweise ziemlich einfach ist, schlechte Audioqualität zu erkennen, ist gute Klangqualität tatsächlich eine recht komplexe Angelegenheit. Ein gutes Beispiel ist die seit einem Jahrzehnt andauernde Diskussion zwischen Vinyl‑Liebhabern und anderen Audiophilen darüber, welches Format überlegene Klangqualität bietet: CD oder Vinyl.

Beim Remote-Interpretieren ist es entscheidend, sowohl qualitativ hochwertige Audioempfangs- als auch -sendefunktionen zu besitzen. So wird sichergestellt, dass Informationen präzise verarbeitet werden und ein angenehmes Audioerlebnis gewährleistet ist, während das Gehör der Menschen geschützt wird.

Als audio‑first Plattform arbeiten wir ständig an neuen Wegen, um das Verhalten von Rednern zu beeinflussen, sowie innovative Audio‑Lösungen zu implementieren, die eine überlegene Audioqualität sichern. Ein häufig diskutiertes Thema, Klangkompression kann wirklich helfen, das Klangerlebnis positiv zu beeinflussen – wenn sie korrekt angewendet wird.

Wir setzten uns mit Richard Schiller, Audio Engineer und Senior Product Manager bei Interprefy um zu verstehen, was Klangkompression ist, wie sie im RSI verwendet wird und was die Klangqualität beeinflusst.

Hallo Richard, erzählen Sie uns ein wenig über Ihren Hintergrund und Ihre Tätigkeit.

Hallo Dora, es freut mich sehr, wieder mit Ihnen zu sprechen. Meine Position bei Interprefy ist Senior Product Manager. Ich bin für die Ausrichtung und Detailgestaltung des Produkts verantwortlich. Außerdem bin ich ausgebildeter Tontechniker. Ursprünglich arbeitete ich bei der welt’s größten Rundfunk-Sprachradiogesellschaft, dem BBC World Service. Dieser Hintergrund lässt mich nach Klarheit und Konsistenz streben.

Konsistenz war der Schlüssel, um Radio in großem Umfang erfolgreich zu betreiben, und Klarheit bildete das wesentliche Element dessen, was wir lieferten. Darüber hinaus habe ich im Bereich Musikaufnahme und Fernsehen gearbeitet. Ich habe die meisten Tätigkeiten in diesem Beruf ausgeübt, einschließlich der Rollen als Produzent, Regisseur, Moderator und Drehbuchautor.

Dann du’ bist die richtige Person, um die Million-Dollar-Frage zu beantworten: Was ist Kompression?

Es gibt zwei verschiedene und voneinander unabhängige Konzepte, die im Bereich Klang als Kompression bezeichnet werden: Ursprünglich gab es die dynamische Kompression, ein Schaltungselement bzw. heute ein Algorithmus, der den Lautstärkepegel automatisch steuert. Diese wird hauptsächlich eingesetzt, um den Dynamikbereich – die Spanne zwischen den leisesten und lautesten Tönen – zu reduzieren. Anschließend folgte die Bitratenreduktion, ein System zur Verringerung der zu speichernden oder zu transportierenden Audiodatenmenge.

Dynamische Kompression und Bitratenreduktion können gut oder schlecht eingesetzt werden.

Also, sind sie gut oder schlecht?

Weder. Wie fast alles können diese beiden Techniken gut oder schlecht eingesetzt werden. Schlecht eingesetzt, dann sind sie nicht gut, aber es gibt nichts an einer der beiden Kompressionsformen, das besagt, dass sie von Natur aus schlecht sind.

Dynamische Kompression ist im Wesentlichen wie ein Gerät, das den Schallpegel überwacht und den Lautstärkeregler herunterdreht, wenn das Audio zu laut wird. Es dreht ihn wieder hoch, sobald das Audio leiser wird. Es hilft Menschen, sowohl laute als auch leise Passagen gleichermaßen gut zu hören. Es unterscheidet sich im Grunde nicht von einem Menschen mit Lautstärkeregelung, den sie herunterdrehen – und ich betone, dass dynamische Kompression die Lautstärke zu reduzieren bedeutet, daher der Name.

Woher entsteht also die Besorgnis bezüglich der Kompression?

Dynamische Kompression reduziert die Lautstärke, was häufig unerwünscht ist; daher folgt eine voreingestellte Lautstärkeregelung, um den Klang wieder zu verstärken. Da die Kompression das Signalniveau ausgleicht, stehen Ihnen zwei Optionen zur Verfügung: Sie kann leiser, aber leichter verständlich eingestellt werden, oder lauter und auffälliger. Gestatten Sie mir, kurz aus der Diskussion auszusteigen und einen wichtigen Hinweis zu geben: Wenn Sie den Klang als zu laut empfinden, reduzieren Sie ihn. Übernehmen Sie stets die Kontrolle über Ihr persönliches Hörniveau.

Es’ ist nicht nur die Ebene, die falsch sein kann, was die Zeitkonstanten eines Kompressors genannt werden, ebenfalls wichtig. Schließlich gibt es das Verhältnis. Dieses wird oft zu aggressiv eingestellt und das’ ist die häufigste Ursache dafür, dass Kompression die Sprache unverständlich macht.

Eines der ärgerlichsten Anwendungsbeispiele sind schlecht konzipierte Automatic‑Gain‑Control‑ (AGC‑) Schaltungen, sowohl in älteren Verbrauchergeräten als auch in von einigen PCs verwendeten Algorithmen. AGCs und Noise‑Gates sind häufig standardmäßig in Laptops und anderen Geräten aktiviert. Somit sind Dynamik und Lautstärkeregelung allgegenwärtig in unserem Alltag. Fehlkonfigurierte Kompression kann die Plosiv‑ und Sibilantenlaute abschneiden, wodurch die Sprache schwer verständlich wird. Dies äußert sich in einer dumpfen Klangqualität der harten Konsonanten am Wortanfang, insbesondere beim ersten Wort eines Satzes. Ein weiteres Anzeichen einer schlecht eingestellten AGC zeigt sich, wenn jemand ein lautes Wort spricht, gefolgt von einem leisen Wort, und man das Ende des leisen Wortes hört, aber Schwierigkeiten hat, dessen Anfang zu erfassen.

Lassen Sie uns zu RSI übergehen. Wie unterscheidet sich die Klangqualität in der Musik von der Klangqualität in der Sprache?

Es gibt’ viel, das’ gemeinsam ist, aber in jedem Fall müssen Sie sorgfältig verstehen, was gut ist. Menschen übernehmen Zahlen aus klassischen Musikaufnahmen, die in akustisch behandelten Studios entstanden sind, und übertragen sie auf die Sprache. In mancher Hinsicht ist Sprache einfacher als ein Orchester, und in mancher Hinsicht ist sie’ schwieriger.

Die oberen Bereiche der Bandbreite sind beispielsweise für die Sprache nicht so wichtig wie für einige Instrumente. Es gibt ein gutes Argument zu sagen, dass bei manchen Schlaginstrumenten die Bandbreite König ist, während bei der Sprache die Klarheit herrschen sollte. Deshalb wird ein Aufnahmetechniker ein anderes Mikrofon für eine Person verwenden als für eine Snare-Drum oder ein Becken.

Ich weiß, dass einige Personen zurückschreien werden, dass die Frequenzen zwischen 18kHz und 20kHz für die Sprache unverzichtbar seien, doch das ist schlichtweg nicht der Fall. Im Allgemeinen sind die besten und teuersten Mikrofone, die Aufnahmetechniker für die Sprache einsetzen, bei diesen Frequenzen nicht besonders leistungsfähig, weil sie dafür einfach nicht benötigt werden.

Und das ist nicht nur zufällig. Angenommen, Sie befänden sich in einem Wald und hörten einer Person zu, die einige Meter entfernt steht und deren Mund direkt auf Ihr Ohr gerichtet ist (und Sie wären noch jung genug, um 20 kHz zu hören). Wenn Sie dann Ihr Gesicht drehen, um den Sprecher zu sehen, und dieser sich seitlich dreht, würden Sie die 20‑kHz‑Komponente nicht mehr hören, zumindest stark reduziert. Diese sehr hohen Frequenzen werden in der natürlichen Umgebung kaum erhalten und sind für uns daher nicht von Bedeutung, da das Leben unmöglich wäre, wenn sie erhalten blieben.

Klarheit zu erreichen ist nuancierter, als es häufig dargestellt wird.

Ist es also für die simultane Interpretation nicht unerlässlich, Zugriff auf Frequenzen bis zu 15.000 Hz zu haben?

Die Herausforderung besteht darin, dass ich den Eindruck erwecken könnte, dass das Zweitbeste ausreichend ist, doch die Wahrheit ist, dass das Erreichen von Klarheit nuancierter ist, als es häufig dargestellt wird. Im direkten Vergleich ist eine Bandbreite von 15 kHz für die Sprache besser als 10 kHz, die wiederum besser ist als 6 kHz und so weiter.

Allerdings kann eine flachere (glattere) Reaktion bis zu 10 kHz das Verständnis besser unterstützen als eine ungleichmäßige Reaktion bis zu 15 kHz. Ebenso lässt sich Sprache, die nicht stark dynamisch mit einer Bandbreite von 6 kHz komprimiert wurde, leichter verstehen als eine Bandbreite von 15 kHz mit schlechter Kompression.

All dies bedeutet, dass die Erhaltung der Frequenzantwort wichtig ist, natürlich, aber ebenso andere Faktoren von Bedeutung sind, und keiner von ihnen wird die Dinge allein perfekt machen. Das besondere Problem bei der Antwort besteht darin, dass mit zunehmender Skala die Erträge deutlich abnehmen. Daher weist unsere Neigung, uns auf die höheren Register zu fixieren, darauf hin, dass es etwas ist, das wir verstehen und leicht beschreiben können, anstatt seine tatsächliche Position in der Wertschöpfungskette widerzuspiegeln.

Eine Bandbreite von 15 kHz oder mehr muss Teil eines umfassenden Programms für gute Leistung sein, doch im wörtlichen Sinne ist sie weder für ein gutes, leichtes Verständnis unerlässlich, noch garantiert sie dies.

Es gibt Behauptungen, dass RSI-Plattformen eine dynamische Bereichskompression anwenden, die zu schlechtem Klang führt. Ist das bei Interprefy der Fall?

Nein. Für den regulären Betrieb besteht kein Bedarf an dynamischer Bereichskompression. Das bedeutet jedoch nicht, dass wir es niemals einsetzen. Wir haben derzeit im Labor etwas, das Kompression anwendet und wirklich spannend ist. Es ist für Zuhörer konzipiert, sei es Publikum, Delegierte oder Dolmetscher. Jede Person kann es aktivieren, wenn sie möchte, oder deaktiviert lassen, wenn sie es nicht tut. 

Exzellenz entsteht durch den gezielten und richtigen Einsatz von Technologie. Es geht um Feinabstimmung, das Streben nach Perfektion in jedem Schritt und das Anwenden kleiner, schrittweiser Änderungen im gesamten System.

Let’s sprechen wir für einen Moment über die Delegierten, weil wir alle diese Erfahrung gemacht haben, bei der ein Redner einfach schrecklich klingt.

Ja. Absolut, Dora. Und ich setze mich mit großer Leidenschaft dafür ein, dies zu beseitigen. Die wirklich großen Probleme sind die sehr schlechte Ausrüstung, die von vielen Rednern verwendet wird, und ihr mangelndes Verständnis dafür, was sie tun müssen, um die Klangqualität zu gewährleisten.

Wie lösen wir das?

Wie bei fast allem liegt die Lösung darin, zahlreiche unterschiedliche Faktoren anzugehen. Wir benötigen, dass Redner bessere Mikrofone verwenden, dass sie mehr Fachwissen über Mikrofontechniken besitzen und mehr Aufmerksamkeit auf Hintergrundgeräusche und Echo richten. Es gibt hier viel Aufklärungsbedarf, etwas, das wir ebenfalls mit unserer Speaker‑Housekeeping‑Video‑Kampagne.

Wir können hier auch Technologie einsetzen, um zu unterstützen. In der Zukunft können Sie und ich zu diesem Thema zurückkehren und darüber sprechen, wie Technologie Menschen dabei helfen kann, ihre eigene Qualität zu verbessern und die Probleme zu kompensieren, wenn sie nicht können'.

Der große Unterschied besteht zwischen gutem, gut konfiguriertem Equipment und schlechtem, schlecht konfiguriertem Equipment.

Wenn wir also den über Hardware empfangenen Klang, beispielsweise über einer harten Konsole, mit dem über Interprefy empfangenen Klang vergleichen würden, gäbe es ’ keinen Unterschied, solange der Sprecher geeignete Ausrüstung verwendet?

Ja, das stimmt, Dora. Der wesentliche Unterschied liegt hier nicht zwischen lokaler und remote Arbeit, sondern zwischen gut konfigurierten, hochwertigen Geräten und schlecht konfigurierten, minderwertigen Geräten. An der Audioqualität eines hardwarebasierten lokalen Systems besteht kein grundsätzlicher Unterschied. Viele Teilnehmer von Meetings und Veranstaltungen, die RSI‑Systeme nutzen, verfügen über Mikrofone, die besser sind als die vor Ort vorhandenen Gegenstücke. Einige möchten jedoch mit schlechteren Geräten teilnehmen. Wie in allen Geschäftsbereichen muss auch dies angemessen gemanagt werden.

Was ist also der Unterschied zwischen RSI und einer hardwarebasierten Lösung?

Was RSI liefert, ist Wahl. Wahl durch Flexibilität. Als meine Frau zum ersten Mal schwanger wurde, sagte ihr Arbeitgeber, ein Mann, ihr einfach, dass sie keinen Job mehr habe. Glücklicherweise das’s jetzt illegal. Ich denke gerne, dass RSI bedeutet, dass jene Dolmetscher, die don’t wollen oder can’t reisen, flexibler arbeiten können. Ich didn’t mochte die schlechte Einstellung, die meine Frau erlebte, und ebenso denke ich, dass Arbeitgeber alles tun sollten, um Menschen zu ermöglichen zu arbeiten, unabhängig von ihrer Situation oder ihren Lebensstilbedürfnissen, ich halte es für unsere Pflicht, als Systemlieferanten, diese Flexibilität ebenfalls zu integrieren.

RSI-Lösungen sind auch für Unternehmen flexibel. Sie können überall eine Konferenz oder ein Meeting abhalten und die Konfiguration sofort einrichten oder ändern. Kürzlich haben wir einem Astronauten geholfen, von der Internationalen Raumstation aus mit der Welt zu sprechen. Zu verlangen, dass ein Raumfahrer persönlich anwesend sein muss, wäre natürlich lächerlich.

Zurück zur Kompression, was würden Sie zu denen sagen, die die vollständige Abschaffung der Kompression fordern?

Das Beseitigen von Kompression, in jeglicher Form, ist kein Allheilmittel. Ich möchte hier erneut betonen, dass es kein Allheilmittel gibt. Ein Teil der ganzheitlichen Lösung besteht darin, den missbräuchlichen Einsatz von Kompression zu eliminieren – sowohl bei schlechter dynamischer Kompression als auch bei unzureichender Bitraten‑Kompression. Das bedeutet, dass Ingenieure in der Branche benötigt werden, die die Technologie verstehen und sie im Detail beherrschen.

Wie steht es mit der Verwendung von mehr als einer Kompressionsfunktion nacheinander? Ist das automatisch schlecht?

Dies ist als kaskadierende Kompression bekannt. Nein, es' ist nicht automatisch schlecht, weder für dynamische noch für Bitraten‑Kompression.

Es gibt spezifische Probleme mit der kaskadierenden Kompression, und wenn Sie Lösungen konzipieren, müssen Sie hart arbeiten. Es ist völlig nachvollziehbar, sich über kaskadierte Kompression Sorgen zu machen, da es viel Aufwand erfordert, sie zum Funktionieren zu bringen, doch bei entsprechender Kompetenz ist es machbar – und sogar hervorragend umsetzbar. Nehmen Sie beispielsweise die dynamische Kompression: Zwei der größten Audio-Innovationen aller Zeiten entstanden durch den Einsatz kaskadierter dynamischer Kompression.

Einige Menschen scheinen besonders gut darin zu sein, Faktoren wie Kompression zu beurteilen; sollten Sie sie zur Unterstützung nutzen?

Es gibt nur einen Weg, Audio zu bewerten, und das nennen wir Blindtests. Idealerweise Doppelblindtests. Wer Ihnen sagt, dass er besonders gut Audio-Probleme erkennt, fragen Sie, ob dies im Rahmen eines Blindtests geschah, also in einem Programm, in dem die Testpersonen nicht wissen, welches Signal welches ist, und das von einer unabhängigen Person geleitet wird. Auch sollten alle Tests eine Vielzahl von Hörern einbeziehen.

Viele Menschen, wahrscheinlich die meisten, glauben, sie hätten ein außergewöhnliches Gehör, aber nur etwa einer von zwanzig hat es. Es ist, als würden wir alle denken, wir seien großartige Fahrer.

Guter Klang ist etwas, das Sie erreichen, indem Sie viel Sorgfalt walten lassen und ganzheitlich vorgehen.

Einige Menschen scheinen sehr meinungsstark in Bezug auf die Klangqualität und deren Erreichung zu sein. Was ist Ihre Antwort darauf?

Menschen, die in binären Begriffen sprechen und sich auf „Muss“ und „Muss‑nicht“ beschränken, liegen – nach meiner Erfahrung – falsch. Ich mag es nicht, wenn Kompression oder andere Audiowerkzeuge einen zu Unrecht schlechten Ruf erhalten. Nicht weil ich ein besonderer Befürworter davon bin, sondern weil guter Klang das Ergebnis sorgfältiger Arbeit und eines ganzheitlichen Ansatzes ist. Wahre Perfektionisten denken über binäre Kategorien hinaus, nutzen das gesamte Werkzeugset und vermeiden vereinfachende Reduktionen.

Alle Klangverarbeitung kann schlecht und gut durchgeführt werden. Gut durchgeführt bedeutet, dass die richtige Konfiguration verwendet und dort angewendet wird, wo sie vorteilhaft ist. Dynamische Kompression kann schrecklich sein, wenn sie schlecht angewendet wird, aber das bedeutet nicht, dass sie ’universell falsch’ ist. Richtig angewendet, ist es 'ein unglaubliches Asset.

Dora Murgu

Verfasst von Dora Murgu

Erfahren Sie mehr über die neuesten Entwicklungen bei Interprefy von Dora Murgu, Leiter für Schulung und Engagement bei Interprefy