Lernbereich | Interprefy

Audiokompression bei RSI – entmystifiziert vom Toningenieur Richard Schiller

Verfasst von Dora Murgu | 16. August 2022

Wir haben diesen Artikel in unseren Interprefied-Podcast hochgeladen und er ist jetzt in Ihrem bevorzugten Podcast-Verzeichnis verfügbar.

Hören und laden Sie den Podcast unten herunter:

 

 

Verfügbar zum Download auf:

 

Klangqualität begleitet uns den ganzen Tag. Vom Radiohören am Morgen bis zum Serienmarathon spät abends – guter Klang ist etwas, das wir oft als selbstverständlich ansehen. Während schlechter Klang meist leicht zu erkennen ist, ist gute Klangqualität tatsächlich eine komplexe Angelegenheit. Ein gutes Beispiel dafür ist die seit zehn Jahren andauernde Diskussion zwischen Vinyl-Liebhabern und anderen Audiophilen darüber, welches Format die bessere Klangqualität bietet: CD oder Schallplatte.

Beim Ferndolmetschen ist die Fähigkeit, sowohl qualitativ hochwertige Audiodaten zu empfangen als auch zu senden, von entscheidender Bedeutung. So wird sichergestellt, dass Informationen korrekt verarbeitet werden und ein angenehmes Hörerlebnis gewährleistet ist, während gleichzeitig das Gehör der Beteiligten geschützt wird.

Als Plattform mit Fokus auf Audio arbeiten wir kontinuierlich an neuen Methoden zur Beeinflussung des Sprecherverhaltens und implementieren innovative Audiolösungen für überragende Klangqualität. Ein häufig diskutiertes Thema ist die Klangkomprimierung, die – richtig angewendet – das Klangerlebnis deutlich verbessern kann.

Wir haben uns mit Richard Schiller, Audioingenieur und Senior Produktmanager bei Interprefy, , um zu verstehen, was Klangkompression ist, wie sie bei RSI eingesetzt wird und was die Klangqualität beeinflusst.

Hallo Richard, erzähl uns doch bitte etwas über deinen Werdegang und deine Tätigkeit.

Hallo Dora, schön, wieder mit dir zu sprechen. Ich bin Senior Produktmanagerin bei Interprefy und kümmere mich um die strategische Ausrichtung und die Details des Produkts. Nebenbei bin ich auch ausgebildete Tontechnikerin. Ursprünglich habe ich beim BBC World Service gearbeitet, dem weltweit größten Rundfunksender für gesprochene Sprache. Durch diese Erfahrung legt man natürlich großen Wert auf Klarheit und Konsistenz.

Konstanz war der Schlüssel zum Erfolg von Radiosendungen im großen Stil, und Klarheit war das A und O unserer Arbeit. Ich habe außerdem in der Musikproduktion und beim Fernsehen gearbeitet. Dort habe ich fast alle möglichen Aufgaben übernommen, darunter die des Produzenten, Regisseurs, Moderators und Drehbuchautors.

Dann sind Sie genau die richtige Person, um die Millionen-Dollar-Frage zu beantworten: Was ist Kompression?

Im Bereich der Audiokompression gibt es zwei unterschiedliche und voneinander unabhängige Verfahren: Zum einen die dynamische Kompression, ein Schaltkreis oder heutzutage ein Algorithmus, der die Lautstärke automatisch regelt. Sie dient primär der Reduzierung des Dynamikumfangs – also des Bereichs zwischen den leisesten und lautesten Tönen. Zum anderen die Bitratenreduktion, ein Verfahren zur Verringerung der Menge an Audiodaten, die gespeichert oder übertragen werden müssen.

Dynamische Komprimierung und Bitratenreduzierung können gut oder schlecht eingesetzt werden.

Sind sie also gut oder schlecht?

Weder noch. Wie fast alles können auch diese beiden Techniken gut oder schlecht eingesetzt werden. Bei falscher Anwendung sind sie natürlich nicht gut, aber es gibt keine Aussage darüber, dass eine der beiden Kompressionsformen grundsätzlich schlecht wäre.

Dynamische Kompression funktioniert im Prinzip wie ein Gerät, das den Schallpegel überwacht und die Lautstärke automatisch reduziert, wenn es zu laut wird. Sobald es leiser wird, wird sie wieder erhöht. Dadurch können laute und leise Passagen gleichermaßen gut gehört werden. Es ist im Grunde dasselbe, als würde man die Lautstärke selbst regeln – und ich betone: Bei der dynamischen Kompression geht es um die Reduzierung der Lautstärke, daher der Name.

Woher rührt also die Besorgnis hinsichtlich der Kompression?

Dynamische Kompression dämpft den Klang, was oft unerwünscht ist. Daher wird anschließend ein Lautstärkeregler verwendet, um die Lautstärke wieder zu erhöhen. Da die Kompression den Signalpegel anpasst, gibt es zwei Möglichkeiten: Entweder der Klang wird leiser, aber besser hörbar, oder er wird lauter und die Aufmerksamkeit wird stärker auf sich gezogen. An dieser Stelle möchte ich kurz einen wichtigen Punkt ansprechen: Wenn Ihnen der Klang zu laut ist, drehen Sie ihn leiser. Achten Sie stets auf Ihre eigene Lautstärke.

Nicht nur der Pegel kann falsch sein, auch die sogenannten Zeitkonstanten eines Kompressors spielen eine Rolle. Schließlich ist da noch das Kompressionsverhältnis. Dieses ist oft zu hoch eingestellt, und das ist die häufigste Ursache dafür, dass Sprache durch die Kompression unverständlich wird.

Eine der ärgerlichsten Anwendungen sind schlecht konzipierte automatische Verstärkungsregelungen (AGC) in älteren Unterhaltungselektronikgeräten und in den Algorithmen mancher PCs. AGC und Noise Gates sind bei Laptops und anderen Geräten oft standardmäßig aktiviert. Dynamik ist also allgegenwärtig. Eine schlecht eingestellte Kompression kann Plosiv- und Zischlaute abschneiden und die Verständlichkeit von Sprache beeinträchtigen. Dies äußert sich in einem dumpfen Klang der harten Konsonanten am Wortanfang, insbesondere beim ersten Wort eines Satzes. Ein weiteres Anzeichen für eine schlecht eingestellte AGC ist, wenn jemand ein lautes Wort ausspricht, gefolgt von einem leisen Wort: Man hört das Ende des leisen Wortes, aber kaum dessen Anfang.

Kommen wir nun zum Thema RSI. Wie unterscheidet sich die Klangqualität bei Musik von der Klangqualität bei Sprache?

Vieles ist gemeinsam, aber in jedem Fall muss man genau verstehen, was „gut“ bedeutet. Man überträgt beispielsweise die Werte von klassischen Musikaufnahmen aus akustisch optimierten Studios auf Sprache. In mancher Hinsicht ist Sprache einfacher als ein Orchester, in mancher Hinsicht aber auch schwieriger.

Die oberen Frequenzbereiche sind beispielsweise für Sprache nicht so wichtig wie für manche Instrumente. Bei manchen Perkussionsinstrumenten ist die Bandbreite entscheidend, während bei Sprache ein gleichmäßiger Klang im Vordergrund stehen sollte. Deshalb verwendet ein Toningenieur für eine Person ein anderes Mikrofon als für eine Snare-Drum oder ein Becken.

Ich weiß, manche werden mir widersprechen und behaupten, die Frequenzen zwischen 18 kHz und 20 kHz seien für Sprache unerlässlich, aber das stimmt einfach nicht. Im Allgemeinen eignen sich selbst die besten und teuersten Mikrofone, die Toningenieure für Sprachaufnahmen verwenden, nicht für diese Frequenzen, weil sie es schlichtweg nicht müssen.

Und das ist kein Zufall. Stellen Sie sich vor, Sie befinden sich in einem Wald und hören jemandem in wenigen Metern Entfernung zu, dessen Mund direkt auf Ihr Ohr gerichtet ist (und Sie sind jung genug, um noch 20 kHz hören zu können). Wenn Sie nun Ihr Gesicht so drehen, dass Sie den Sprecher sehen können, und dieser sich zur Seite wendet, würden Sie die 20-kHz-Frequenz nicht mehr oder zumindest deutlich schwächer wahrnehmen. Diese sehr hohen Frequenzen werden in der Natur nicht gut erhalten und sind daher für uns nicht wichtig, denn Leben wäre sonst unmöglich.

Klarheit zu erreichen ist differenzierter, als es die meisten Menschen gerne darstellen.

Ist es für die Simultandolmetschung nicht unerlässlich, Zugriff auf Frequenzen bis zu 15.000 Hz zu haben?

Die Herausforderung besteht darin, dass es so klingen könnte, als würde ich sagen, das Zweitbeste reiche aus, aber in Wahrheit ist die Erzielung von Klarheit vielschichtiger, als allgemein angenommen wird. Beispielsweise ist eine Bandbreite von 15 kHz für Sprache besser als 10 kHz, was wiederum besser ist als 6 kHz und so weiter.

Ein gleichmäßigerer Frequenzgang bis 10 kHz kann jedoch für das Sprachverständnis besser sein als ein unregelmäßiger Frequenzgang bis 15 kHz. Ebenso kann Sprache, die nicht schlecht dynamisch komprimiert wurde und eine Bandbreite von 6 kHz aufweist, leichter verständlich sein als solche mit 15 kHz Bandbreite und schlechter Komprimierung.

Das bedeutet, dass die Erhaltung des Frequenzgangs natürlich wichtig ist, aber auch andere Faktoren eine Rolle spielen und keiner allein für ein perfektes Ergebnis sorgt. Das Problem mit dem Frequenzgang ist, dass der Nutzen mit steigenden Frequenzen deutlich abnimmt. Unsere Tendenz, uns auf die höheren Register zu konzentrieren, spiegelt also eher wider, dass wir sie verstehen und leicht beschreiben können, als ihre tatsächliche Bedeutung in der Wertschöpfungskette.

Eine Bandbreite von 15 kHz oder mehr muss Teil eines Gesamtprogramms mit guter Leistung sein, ist aber im wörtlichen Sinne weder für ein gutes, einfaches Verständnis unerlässlich noch garantiert sie dieses.

Es gibt Behauptungen, dass RSI-Plattformen eine Dynamikkompression anwenden, die zu schlechtem Klang führt. Trifft das auch auf Interprefy zu?

Nein. Im Normalbetrieb ist keine Dynamikkompression erforderlich. Das heißt aber nicht, dass wir sie nie einsetzen. Wir haben momentan ein wirklich spannendes Gerät im Labor, das eine solche Kompression anwendet. Es ist für Zuhörer konzipiert – egal ob Publikum, Teilnehmer oder Dolmetscher. Jeder kann die Kompression nach Belieben aktivieren oder deaktivieren. 

Exzellenz entsteht durch den gezielten Einsatz von Technologie am richtigen Ort und auf die richtige Weise. Es geht darum, Feinabstimmungen vorzunehmen, in jedem Schritt nach Perfektion zu streben und kleine, schrittweise Verbesserungen im gesamten System umzusetzen.

Sprechen wir einen Moment über die Delegierten, denn wir alle kennen das: Ein Redner klingt einfach nur furchtbar.

Ja, absolut, Dora. Und es liegt mir sehr am Herzen, das zu ändern. Die größten Probleme sind die minderwertige Ausrüstung, die viele Redner verwenden, und ihr fehlendes Verständnis dafür, was sie tun müssen, um eine gute Klangqualität zu gewährleisten.

Wie lösen wir das?

Wie so oft liegt die Lösung darin, viele verschiedene Faktoren anzugehen. Sprecher müssen bessere Mikrofone verwenden, sich besser mit Mikrofontechniken auskennen und mehr auf Hintergrundgeräusche und Echos achten. Hier besteht ein erheblicher Aufklärungsbedarf, den wir auch mit unserer Videokampagne zur Sprecherorganisation .

Auch hier können wir uns von Technologie unterstützen lassen. Wir können in Zukunft auf dieses Thema zurückkommen und darüber sprechen, wie Technologie Menschen dabei helfen kann, ihre Fähigkeiten zu verbessern und Probleme auszugleichen, wenn sie dies nicht selbst können.

Der große Unterschied liegt zwischen guter, gut konfigurierter Ausrüstung und schlechter, mangelhaft konfigurierter Ausrüstung.

Wenn wir also den über Hardware, beispielsweise ein festes Mischpult, empfangenen Klang mit dem über Interprefy empfangenen Klang vergleichen würden, gäbe es keinen großen Unterschied, solange der Sprecher die entsprechende Ausrüstung verwendet?

Ja, genau, Dora. Der entscheidende Unterschied liegt nicht zwischen lokalem und Remote-Arbeiten, sondern zwischen besserer, gut konfigurierter und schlechter, schlecht konfigurierter Ausrüstung. Hardwarebasierte lokale Systeme unterscheiden sich in der Audioqualität nicht grundsätzlich. Viele Teilnehmer von Meetings und Veranstaltungen, die RSI-Systeme nutzen, verfügen über Mikrofone, die besser sind als die entsprechenden Mikrofone vor Ort. Manche möchten sogar mit Geräten teilnehmen, die schlechter sind. Wie alles im Geschäftsleben muss auch dies angemessen gehandhabt werden.

Worin besteht also der Unterschied zwischen RSI und einer hardwarebasierten Lösung?

Was RSI bietet, ist Wahlfreiheit. Wahlfreiheit durch Flexibilität. Als meine Frau schwanger wurde, teilte ihr Arbeitgeber, ein Mann, ihr einfach mit, dass sie ihren Job verloren habe. Zum Glück ist das heute illegal. Ich denke, RSI bedeutet, dass Dolmetscher, die nicht reisen wollen oder können, flexibler arbeiten können. Ich fand die schlechte Behandlung, die meine Frau erfahren musste, unerträglich. Und so wie ich finde, dass Arbeitgeber alles tun sollten, um Menschen unabhängig von ihren gesundheitlichen oder persönlichen Bedürfnissen die Arbeit zu ermöglichen, halte ich es für unsere Pflicht als Systemanbieter, diese Flexibilität ebenfalls zu gewährleisten.

RSI-Lösungen sind auch für Unternehmen flexibel. Sie können Konferenzen oder Meetings überall abhalten und die Konfiguration im Handumdrehen einrichten oder ändern. Wir haben kürzlich einem Astronauten geholfen, von der Internationalen Raumstation aus mit der Welt zu kommunizieren. Es wäre natürlich absurd gewesen, von einem Astronauten eine persönliche Teilnahme zu verlangen.

Um auf die Kompression zurückzukommen: Was würden Sie denjenigen sagen, die die Kompression gänzlich abschaffen wollen?

Die Abschaffung von Komprimierung, egal welcher Art, ist keine Wunderlösung. Ich möchte es noch einmal betonen: Es gibt keine Wunderlösung. Ein Teil der ganzheitlichen Lösung besteht darin, den unsachgemäßen Einsatz von Komprimierung zu eliminieren – sowohl von mangelhafter dynamischer Komprimierung als auch von unzureichender Bitratenkomprimierung. Das erfordert Ingenieure in der Branche, die die Technologie verstehen und detailliert beherrschen.

Wie sieht es aus, wenn man mehrere Komprimierungsfunktionen nacheinander verwendet? Ist das automatisch schlecht?

Dies wird als Kaskadenkompression bezeichnet. Nein, das ist weder für die dynamische noch für die Bitratenkompression automatisch schlecht.

Die Kaskadenkompression birgt spezifische Probleme, und die Entwicklung von Lösungen erfordert viel Aufwand. Es ist durchaus berechtigt, Bedenken hinsichtlich der Kaskadenkompression zu haben, da ihre Implementierung viel Arbeit erfordert. Mit dem nötigen Know-how ist sie jedoch realisierbar – und zwar mit hervorragenden Ergebnissen. Nehmen wir beispielsweise die Dynamikkompression: Zwei der größten Innovationen im Audiobereich basieren auf der Verwendung von Kaskadenkompression.

Manche Menschen scheinen besonders gut darin zu sein, Faktoren wie Kompression einzuschätzen. Sollten Sie diese Einschätzung zu Ihren Gunsten nutzen?

Es gibt nur eine Möglichkeit, Audioqualität zu beurteilen: Blindtests. Idealerweise Doppelblindtests. Fragen Sie jeden, der behauptet, besonders gut im Hören von Audioproblemen zu sein, ob dies im Rahmen eines Blindtests geschah. Blindtests sind Tests, bei denen die Testperson nicht weiß, welche Person welche ist, und die von einer Person durchgeführt werden, die nicht an der Bewertung beteiligt ist. Bei allen Tests sollten zudem verschiedene Testpersonen einbezogen werden.

Viele Menschen, wahrscheinlich die meisten, glauben, ein außergewöhnlich gutes Gehör zu haben, aber das trifft nur auf etwa jeden Zwanzigsten zu. Genauso ist es, als würden wir uns alle für hervorragende Autofahrer halten.

Guter Klang entsteht durch viel Sorgfalt und ganzheitliches Vorgehen.

Manche Leute scheinen sehr feste Meinungen zur Klangqualität und deren Erreichung zu haben. Was antworten Sie ihnen?

Wer in Schwarz-Weiß-Kategorien denkt, wer von „Muss“ und „Darf nicht“ spricht, irrt sich – das hat meine Erfahrung gezeigt. Ich sehe es nicht gern, wenn Kompression oder andere Audiowerkzeuge zu Unrecht einen schlechten Ruf bekommen. Nicht, weil ich sie besonders mag oder ein Verfechter von Kompression im Besonderen wäre, sondern weil guter Klang das Ergebnis sorgfältiger Arbeit und ganzheitlichen Ansatzes ist. Wahre Perfektionisten denken nicht in Schwarz-Weiß-Kategorien, nutzen das gesamte Spektrum an Werkzeugen und neigen nicht zu simplen Reduktionen.

Jede Art der Audiobearbeitung kann gut oder schlecht durchgeführt werden. Gut durchgeführt bedeutet, die richtige Konfiguration zu verwenden und sie dort einzusetzen, wo sie sinnvoll ist. Dynamikkompression kann furchtbar klingen, wenn sie falsch angewendet wird, aber das heißt nicht, dass sie grundsätzlich falsch ist. Richtig angewendet, ist sie ein unglaublicher Vorteil.