Deep Dive in die Evolution der automatischen Spracherkennung (ASR)

Automatic Speech Recognition
© Rahul/stock.adobe.com & Lamarr-Institut

Die automatische Spracherkennung (ASR) ist eine sich rasch entwickelnde Technologie, die im heutigen digitalen Zeitalter von großer Bedeutung ist. Als sprachbasierte Technologie ist sie ein nützlicher Weg, um die Interaktion zwischen Mensch und Computer zugänglicher zu machen. Die inneren Abläufe von ASR können jedoch sehr komplex sein. Deshalb wollen wir das Konzept der ASR entmystifizieren und es auf einfache und verständliche Weise darstellen, indem wir einen Überblick über die verschiedenen Zeiträume und die Übergänge zwischen ihnen geben.  

Die Entwicklung der automatischen Spracherkennung

In der sich ständig weiterentwickelnden Technologielandschaft ist die Entwicklung der automatischen Spracherkennung (ASR) nichts weniger als bemerkenswert. Im Laufe der Jahre wurden zahlreiche Ansätze erforscht und verfeinert, die alle zur Weiterentwicklung dieser wichtigen Technologie beigetragen haben. In diesem Blogbeitrag gehen wir auf die faszinierende Entwicklung der ASR ein und beleuchten die wichtigsten Meilensteine und Übergänge, die ihre Entwicklung geprägt haben.

Statistischer Ansatz 

Hidden Markov Models (HMMs) waren einer der ersten grundlegenden Ansätze, die für die Spracherkennung eingeführt wurden. Dieser Ansatz wurde in das HCLG-Framework (HMM – Context – Lexicon – Grammar) eingebettet, welches das Problem in verschiedene Komponenten aufteilt, die jeweils spezifische Aspekte behandeln. Mit den Fortschritten bei der Hardware und dem florierenden Bereich der Big Data ging der Bereich der ASR jedoch in die End-to-End-Ära über, in der die einzelnen Komponenten zu einem einzigen Deep-Learning-Modell zusammengefasst wurden.    

End-to-End-Ansatz 

Neuronale Netze haben die Spracherkennung revolutioniert und einen bedeutenden Meilenstein im technologischen Fortschritt gesetzt. Durch die Nutzung großer Datensätze und leistungsstarker Rechenkapazitäten (z. B. GPUs) haben sie Anwendungen wie Sprachassistenten oder Transkriptionsdienste erheblich beeinflusst. Die Systeme können nun eine Vielzahl von Sprachen, Akzenten und Sprachvariationen effektiver und genauer verarbeiten und erreichen oft eine Genauigkeit, die mit der von Menschen vergleichbar ist. Das Jahr 2017 läutete mit der Einführung der Transformer-Architektur eine neue Ära des Deep Learning ein, die schnell ihre Anwendung in der ASR fand. Während wir durch die ASR-Landschaft navigieren, müssen wir uns jedoch fragen: Sind Transformer die ultimative Lösung oder gibt es noch unerforschte Gebiete, die auf ihre Erkundung warten? In den folgenden Abschnitten dieses Blog-Beitrags werden wir uns auf eine Reise in die Feinheiten von ASR begeben, ihre innere Funktionsweise entwirren und die Möglichkeiten erkunden, die vor uns liegen.

Das Spektrum der automatischen Spracherkennung aufdecken: Von HMMs bis hin zu Whisper und Deep-Learning-Techniken

Die automatische Spracherkennung (ASR) umfasst eine Reihe komplexer Schritte, die es Maschinen ermöglichen, gesprochene Sprache in geschriebenen Text umzuwandeln. Um die grundlegenden Mechanismen der ASR zu verstehen, sollten wir uns mit den wichtigsten Komponenten befassen und uns dabei auf zwei Hauptansätze konzentrieren: Hidden Markov Models (HMMs) und Deep Learning.

Hidden-Markov-Models (HMMs)

Spracherkennungssysteme bestehen aus zwei Hauptkomponenten: dem Akustikmodell (AM) und dem Sprachmodell (LM). Ursprünglich wurde diese Aufteilung im HCLG-Framework (HMM – Context – Lexicon – Grammar) fein abgegrenzt. HCLG ist ein Graph, der aus einer Grammatik, einem Lexikon, einem Kontext und einem HMM Weighted Finite State Transducers (WFSTs) besteht. In diesem Graphen stellen die Eckpunkte Symbole dar, die zusammen einen Satz ergeben, sobald der Graph durchlaufen wurde. Die Kanten, die die Eckpunkte verbinden, sind mit penalties (dt. „Strafen“) oder costs (dt. „Kosten“) verbunden, die entstehen, wenn man sich für einen Pfad entscheidet. Wenn der kostengünstigste Pfad gefunden wird, ist die Ausgabe die beste Transkription für das Input Audio.  

Das Akustikmodell (AM) des HCLG-Systems besteht aus HMM, Kontext und Lexikon-WFSTs, die gemeinsam die Sprache als eine Folge von Phonemen modellieren. Die Grammatik-WFST beherbergt das Sprachmodell (LM), das die Wahrscheinlichkeit von Wortfolgen abbildet. AM- und LM-Training können separat durchgeführt und mit Hilfe von WFST-Mathematik kombiniert werden, was diesen Aufbau in ASR-Umgebungen mit geringen Ressourcen sehr praktisch und leistungsstark macht.

Deep Learning

Deep Speech hat sich zu einem bedeutenden Fortschritt im Bereich der End-to-End ASR entwickelt. Diese Architektur vereinfacht die Entwicklung von ASR-Systemen für verschiedene Anwendungsfälle und umgeht die Komplexität, die mit herkömmlichen Methoden verbunden ist. Die Deep Speech-Architektur erfordert keine von Hand entwickelten Features, um Hintergrundgeräusche, Hall oder Sprechervariationen zu berücksichtigen. Stattdessen wird direkt eine Funktion erlernt, die gegen solche Effekte resistent ist. Außerdem wird kein Phonemwörterbuch benötigt, was den herkömmlichen Ansatz der ASR revolutioniert. Das führt zu der Frage: Wie kann eine so „einfache“ Architektur existieren und ASR durchführen, ohne die Grundeinheiten der Sprache (Phoneme) zu benötigen?  Bevor wir darauf eingehen, ist es jedoch wichtig zu erwähnen, dass die Architektur allein nicht ausreicht, um mit den komplexen HCLG-Systemen zu konkurrieren, sondern dass wesentlich mehr Daten erforderlich sind, um ein konkurrenzfähiges Niveau zu erreichen.

Der Connectionist Temporal Classification (CTC) loss ist die Zielfunktion, die optimiert werden muss, wenn es sich um einen Aufbau handelt, wie er bei Deep Speech vorliegt. Wie hilft uns CTC also, unsere Fragen einigermaßen zu beantworten? Bei ASR sind zwei Sequenzen im Spiel, und wenn das System lernt, eine Sequenz der anderen zuzuordnen, hat es gelernt, das ASR-Problem zu lösen. Bei HCLG waren die Sequenzen die der Eingabesprache und die der Phoneme. Der CTC-Loss ist so konzipiert, dass die zweite Sequenz die von Zeichen/Wörtern/Teilwörtern sein kann. Es wird ein Graph ähnlich wie bei HCLG konstruiert, jedoch mit Zeichenzuständen und einigen speziellen Zuständen, und da der CTC-Loss optimiert wird, ist das System in der Lage, den verschiedenen Abschnitten der Spracheingabe die richtigen Zustände zuzuordnen. Dies bedeutet, dass das Modell lernt, Sprache auf Zeichen/Wörter/Teilwörter abzubilden. In einem HCLG-System wird die sequentielle Natur der Sprache durch die HCLG-Graphenstruktur modelliert, jedoch können rekurrente neuronale Netze (RNNs) dasselbe tun, jedoch viel kompetenter, da sie sich die Sequenz (theoretisch) unendlich „merken“ können. Im Vergleich dazu „merken“ sich HMMs die Informationen des vorherigen Zustands.  Deep Speech verwendet diese Architektur in Kombination mit standardmäßigen Deep Feed-Forward-Blöcken und füttert sie mit einer Menge von Trainingsdaten, während die Ausrichtung dem CTC-Loss überlassen wird. 

Transformer und Whisper 

Wir haben bereits erwähnt, dass RNNs theoretisch eine unendliche lange Sequenz modellieren können. In der Praxis ist dies bei weitem nicht der Fall. Probleme wie der „vanishing gradient“ führen jedoch dazu, dass RNNs Teile vergessen, die in einer längeren Sequenz früher erschienen sind. Darüber hinaus stellt sich heraus, dass das Training von RNNs ein langsamer Prozess ist. Die Tatsache, dass RNNs Sequenzen ein Element nach dem anderen verarbeiten, führt zu einer erhöhten Komplexität und Trainingszeit. Transformers wurden eingeführt, um diese beiden Probleme zu lindern. Sie können alle Sequenzen auf einmal verarbeiten, d. h. alle Elemente werden parallel verarbeitet. Da alle Elemente einer Sequenz jederzeit sichtbar sind, gibt es kein „Vergessen“, und die parallele Verarbeitung bedeutet, dass das Lernen durch einfache Backpropagation erfolgt, anstatt durch Backpropagation über die Zeit, wie es bei RNNs der Fall ist.  

Dieser Mechanismus ist in der Lage, Informationen aus einem Element zu extrahieren, indem es im Kontext der gesamten Sequenz betrachtet wird, und zwar durch die Berechnung von Ähnlichkeiten (Beziehungen) mit anderen Elementen der Sequenz. Die „self-attention“ ist daher in der Lage, sinnvolle Informationen über die Sequenz als Ganzes zu extrahieren. Mit Hilfe von Tranformern können wir riesige Datenmengen entsprechend der Aufgabe, die das Modell erfüllen soll, einspeisen und dem Modell eine Vielzahl von Parametern zum Erlernen dieser Aufgabe geben. CTC ist auch im Zeitalter der Transformers noch relevant, aber CTC war nie die einzige Möglichkeit, zwei unterschiedlich lange Sequenzen aneinander anzupassen. Vor Transformers und nach Deep Speech wurde das Encoder-Decoder-Framework entwickelt. Der Encoder kann die Eingabesequenz entgegennehmen, ohne die Ausgabesequenz erzeugen zu müssen. Diese Aufgabe wird an den Decoder ausgelagert, und die beiden Netzwerke sind über einen Mechanismus verbunden, der der „self-attention“ ähnelt und „cross attention“ genannt wird. Mit Hilfe der cross attention kann das System Ähnlichkeiten zwischen den Elementen der Ausgabesequenz und der Eingabesequenz berechnen und die erforderliche Ausrichtung lernen. Da sich Transformers gegenüber RNNs als überlegen erwiesen haben, bestehen die heutigen Encoder-Decoder aus Transformers. Und damit kommen wir zum Spracherkennungssystem namens „Whisper“.

Whisper ist der derzeitige state-of-the-art auf diesem Gebiet, und vereinfacht gesagt handelt es sich um ein Transformer-Encoder-Decoder-Modell, das mit 680.000 Stunden Trainingsdaten trainiert wurde. Im Vergleich dazu wurden für Deep Speech 5.000 Stunden an Trainingsdaten verwendet, während die Datenmenge zu Zeiten von HCLG nur bei einigen hundert Stunden lag. Nach Transformern ging der Trend dahin, die Anzahl der Parameter des Modells und die Menge der Trainingsdaten zu skalieren. Im nächsten Abschnitt werden wir uns mit den Herausforderungen befassen, mit denen ASR-Systeme konfrontiert sind und die nicht durch Skalierung von Parametern und Daten gelöst werden konnten.

Die Herausforderungen der automatischen Spracherkennung (ASR) bewältigen 

Im Bereich der automatischen Spracherkennung (ASR) gibt es eine Vielzahl von Herausforderungen, die sich auf die Genauigkeit und Effektivität dieser Systeme auswirken. Dieses Kapitel befasst sich mit drei zentralen Herausforderungen: Robustheit, sogenannte „Out-of-vocabulary-Wörter“ (OOV) und Halluzinationen. Diese Hindernisse werfen ein Licht auf die komplexen Aspekte der ASR-Technologie und zeigen auf, welche Fortschritte erforderlich sind, um die Leistung dieser Systeme weiter zu verbessern.

1. Robustheit

Robustheit in der automatischen Spracherkennung (ASR) bezieht sich auf die Fähigkeit des Systems, Sprache unter verschiedenen Bedingungen, einschließlich unterschiedlicher Akzente und Sprachvariationen, korrekt zu transkribieren. Akzente und Sprachvielfalt stellen aufgrund der unterschiedlichen Aussprache von Wörtern und Sätzen eine große Herausforderung für ASR-Systeme dar.

Unterschiedliche Akzente und Dialekte führen zu Variationen in der Aussprache und den akustischen Merkmalen, wie Tonhöhe, Rhythmus und Intonationsmuster. So können Sprecher mit regionalem Akzent beispielsweise Wörter anders aussprechen oder andere Sprachmuster verwenden als die Standardaussprache. Außerdem können Sprecher verschiedener Sprachen unterschiedliche phonetische Inventare oder Sprachlaute haben, was den Erkennungsprozess weiter erschwert. Diese Unterschiede stellen eine Herausforderung für ASR-Systeme dar, da sie darauf trainiert werden müssen, Sprache von verschiedenen Sprechern und mit unterschiedlichem sprachlichen Hintergrund zu erkennen und zu interpretieren.

Um dieser Herausforderung zu begegnen, entwickeln Forscher ASR-Systeme, die robuster sind und sich an verschiedene Sprachmuster und sprachliche Variationen anpassen können. Dazu kann es notwendig sein, Sprachdaten von einer Vielzahl von Sprechern und Sprachen zu sammeln und zu annotieren, um die Leistung des Systems in verschiedenen Akzenten und Dialekten zu verbessern. Insgesamt ist die Verbesserung der Robustheit von ASR-Systemen entscheidend, um ihre Leistung in realen Anwendungen zu steigern und eine genaue Transkription in verschiedenen sprachlichen und kulturellen Kontexten zu gewährleisten.

2. Out-of-vocabulary-Wörter (OOV)

Darüber hinaus stellen die sogenannten „Out-of-vocabulary-Wörter“ (OOV) eine große Herausforderung für automatische Spracherkennungssysteme (ASR) dar, da es sich dabei um Wörter handelt, denen das System beim Training nicht begegnet ist. Dabei kann es sich um neue Begriffe, Namen oder Fachvokabular handeln, die im Lexikon des Systems oder in den Trainingsdaten nicht vorhanden sind.

Wenn ASR-Systeme mit OOV-Wörtern konfrontiert werden, können sie Schwierigkeiten haben, diese genau zu erkennen und zu transkribieren, was zu Fehlern in der Transkriptionsausgabe führt. Dies liegt daran, dass dem System die notwendigen linguistischen Informationen oder der Kontext fehlen, um diese unbekannten Wörter korrekt zu identifizieren und zu interpretieren. Ein häufiges Szenario, in dem OOV-Wörter vorkommen, ist die informelle Unterhaltung oder domänenspezifische Inhalte, in denen die Sprecher Slang, Jargon oder Fachbegriffe verwenden, die nicht zum Vokabular des Systems gehören. In einem medizinischen Umfeld können Ärzte beispielsweise eine spezielle Terminologie verwenden, die im allgemeinen Sprachgebrauch oder in schriftlichen Texten nicht üblich ist.

Die Bewältigung der Herausforderung der OOV-Wörter erfordert Strategien zur Verbesserung der Robustheit und Anpassungsfähigkeit von ASR-Systemen. Ein Ansatz besteht darin, das Lexikon und die Trainingsdaten des Systems kontinuierlich zu aktualisieren und zu erweitern, um ein breiteres Spektrum an Vokabular, einschließlich OOV-Wörtern, die im realen Sprachgebrauch vorkommen, aufzunehmen. Dies kann die Einbeziehung von domänenspezifischen Wörterbüchern oder Datensätzen beinhalten, um Fachbegriffe und Jargon abzudecken. Ein weiterer Ansatz ist die Entwicklung von Techniken zur Behandlung von OOV-Wörtern während des Erkennungsprozesses. Darüber hinaus untersuchen Forscher den Einsatz von Techniken wie phonetische Ähnlichkeit oder Worteinbettungen, um OOV-Wörter ähnlichen Wörtern oder Konzepten im Wortschatz des Systems zuzuordnen.

Generell ist die Bewältigung des Problems der OOV-Wörter von entscheidender Bedeutung für die Verbesserung der Genauigkeit und Leistung von ASR-Systemen, insbesondere in realen Szenarien, in denen Sprecher verschiedene Vokabeln und Sprachvariationen verwenden können. Durch die Entwicklung robuster Techniken für den Umgang mit OOV-Wörtern können sich ASR-Systeme besser an die dynamische Natur der gesprochenen Sprache anpassen und genauere und zuverlässigere Transkriptionsergebnisse liefern.

3. Halluzinationen

Halluzinationen in automatischen Spracherkennungssystemen (ASR) beziehen sich auf das Phänomen, dass das System Text transkribiert, der in der Audiodatei gar nicht vorhanden ist. Trotz der beeindruckenden Leistung aktueller state-of-the-art Architekturen wie bspw. Whisper bleiben Halluzinationen eine anhaltende Herausforderung in der ASR-Technologie.

Halluzinationen können aufgrund verschiedener Faktoren auftreten, aber eine der Hauptursachen ist das Vorhandensein von qualitativ schlechten oder beschädigten Samples in den Trainingsdaten. Wenn ASR-Systeme auf Daten trainiert werden, die Ungenauigkeiten, Hintergrundgeräusche oder einfach nur Verzerrungen (Bias) enthalten, können sie versehentlich lernen, nicht existierende Wörter oder Sätze zu transkribieren. Diese Halluzinationen können die Genauigkeit und Zuverlässigkeit des ASR-Systems erheblich beeinträchtigen und zu fehlerhaften Transkriptionsergebnissen führen. Das Vorhandensein von Halluzinationen unterstreicht die entscheidende Bedeutung von qualitativ hochwertigen Trainingsdaten für die ASR. Die Trainingsdaten sollten sorgfältig kuratiert und vorverarbeitet werden, um Ungenauigkeiten, Verzerrungen oder Artefakte zu entfernen, die möglicherweise zu Halluzinationen führen könnten. Darüber hinaus sollten robuste Qualitätskontrollmaßnahmen implementiert werden, um sicherzustellen, dass die Trainingsdaten reale Sprachmuster und -merkmale genau widerspiegeln.

Um die Auswirkungen von Halluzinationen abzuschwächen, entwickeln Forscher Techniken zur Verbesserung der Robustheit und Widerstandsfähigkeit von ASR-Systemen. Dies kann die Einbeziehung fortschrittlicher Signalverarbeitungsalgorithmen zum Herausfiltern von Rauschen und Verzerrungen sowie die Erforschung neuer Modellarchitekturen umfassen, die gegenüber Schwankungen der Sprachqualität robuster sind. Darüber hinaus konzentrieren sich die laufenden Forschungsarbeiten auf die Entwicklung neuartiger Bewertungsmetriken und Benchmarking-Verfahren, um die Leistung von ASR-Systemen im Hinblick auf die Erkennung und Abschwächung von Halluzinationen zu beurteilen. Durch die systematische Bewertung und Behandlung des Problems der Halluzinationen wollen die Forscher die Gesamtgenauigkeit und Zuverlässigkeit von ASR-Systemen verbessern und letztlich ihren Nutzen und ihre Effektivität in realen Anwendungen steigern. Zusammenfassend lässt sich sagen, dass die ASR-Technologie mit Herausforderungen im Zusammenhang mit Akzenten und Sprachvielfalt konfrontiert ist, aber Fortschritte im Bereich des Deep Learning, der Sprachmodellierung und großer Datensätze haben die Genauigkeit und Leistung der ASR erheblich verbessert. Die oben genannten Probleme müssen jedoch noch gelöst werden.

Schlussfolgerungen

Die Entwicklung der Technologie der automatischen Spracherkennung (ASR) von ihren Anfängen bis zur heutigen Zeit stellt eine bemerkenswerte Reise dar, die von transformativen Fortschritten geprägt ist. Von einfachen Systemen, die auf statistischen Ansätzen beruhen, bis hin zu hochentwickelten neuronalen Netzen und Transformers hat die ASR einen tiefgreifenden Wandel erfahren, der durch das Streben nach einer nahtlosen Mensch-Computer-Interaktion vorangetrieben wurde.

Diese Entwicklung unterstreicht das unermüdliche Streben nach Innovation und Verbesserung der ASR-Technologie, wobei die aktuellen, auf Deep Learning basierenden Systeme ein Beleg für die bemerkenswerten Fortschritte sind. Diese fortschrittlichen ASR-Systeme zeichnen sich dadurch aus, dass sie sich an unterschiedliche Umgebungen und sprachliche Kontexte anpassen und so den Weg für eine verbesserte Zugänglichkeit und Benutzerfreundlichkeit in verschiedenen Anwendungen ebnen.

Wir vom Fraunhofer IAIS und dem Lamarr-Institut sind bestrebt, die mit der ASR-Technologie verbundenen Herausforderungen zu meistern und gleichzeitig die Fähigkeiten der Modelle kontinuierlich zu verbessern. In unserer Forschungs- und Entwicklungsarbeit konzentrieren wir uns auf die Überwindung der Herausforderungen, wie Robustheit, Out-of-vocabulary-Wörter (OOV) und Halluzinationen, um die nahtlose Integration von ASR in den Alltag zu ermöglichen. Unser Ziel ist eine Zukunft in der Sprachtechnologien, ASR im Speziellen, für den Menschen ein allgegenwärtiges und unverzichtbares Kommunikations- und Interaktionswerkzeug ist.

Thomas Dethmann

Thomas Dethmann absolvierte seinen Bachelor in Audio & Video an der Robert-Schumann-Hochschule und der Fachhochschule Düsseldorf. Seine Leidenschaft für Music Information Retrieval und Audio Processing entdeckte er während seines Auslandssemesters an der LTU in Michigan , USA. Nach seinem Abschluss arbeitete er einige Zeit als Akustikberater, bis er seinen Master in Audio Communication & Technology an der Technischen Universität Berlin begann. Zurzeit arbeitet er als Research Engineer am Fraunhofer IAIS, […]

Manas Maurya

Manas Maurya schloss sein Bachelor-Studium in Elektronik und Kommunikationstechnik ab, wobei er ein starkes Interesse an der Sprachsignalverarbeitung entwickelte. Dieses Interesse führte dazu, dass er an der University of Edinburgh einen Master in Sprachverarbeitung absolvierte. Derzeit ist er als Speech Recognition Engineer am Fraunhofer IAIS tätig. In dieser Position konzentriert sich Manas auf die Erforschung von Techniken zur Verbesserung eines Live-Spracherkennungssystems und trägt gleichzeitig zur Entwicklung eines multimodalen Frameworks bei.

Weitere Blogartikel