Der Sächsische Landtag hat sich vorgenommen, die Zugänglichkeit seiner Plenarsitzungen zu verbessern, um dem gesellschaftlichen Bedürfnis nach Barrierefreiheit zu entsprechen. Um dies zu erreichen, hat das Parlament eine Software zur automatischen Live-Spracherkennung (Englisch: Automatic Speech Recognition, kurz: ASR) eingeführt, die einen wichtigen Schritt zur Gewährleistung der Barrierefreiheit darstellt. Diese Technologie ermöglicht es, gesprochene Sprache in Echtzeit in digitalen Text umzuwandeln, was ein wichtiges Instrument für die Live-Untertitelung darstellt. Live-ASR erleichtert nicht nur die Teilnahme von Hörgeschädigten, indem sie das Gesprochene während der Debatten lesen können, sondern ist auch ein Zeichen für ein breiteres Engagement für digitale Inklusion im Gesetzgebungsprozess.
In diesem Blogbeitrag gehen wir auf die spezifischen Anforderungen ein, die den Sächsischen Landtag zur Einführung der ASR-Technologie veranlasst haben. Im Anschluss daran wird detailliert erörtert, wie die Software an das einzigartige Vokabular der Landesparlamente und den sächsischen Dialekt angepasst wurde, wie sie in die parlamentarische Infrastruktur integriert wurde und welche Vorteile sich aus der Einführung der Software für die Digitalisierung im Allgemeinen ergaben.
Warum barrierefreie Plenarsitzungen wichtig sind: Das Beispiel des Sächsischen Landtags
Barrierefreie Plenarsitzungen sind entscheidend für eine gleichberechtigte Teilnahme an den Parlamentsdebatten. Dazu gehört, dass neben Live-Streams auch Abschriften zur Verfügung gestellt werden, um Menschen mit Hörbeeinträchtigungen gerecht zu werden.
Herr Kindler, Referatsleiter Informationstechnik des Sächsischen Landtags, betonte die Notwendigkeit einer automatisierten Live-Untertitelung, um die verschiedenen Dialekte und die von den Abgeordneten verwendete Fachterminologie korrekt wiederzugeben. Um die sprachlichen Herausforderungen des sächsischen Dialekts und die Notwendigkeit einer präzisen Transkription politischer und juristischer Begriffe zu bewältigen, suchte der Landtag nach einer Lösung, die Genauigkeit und Effizienz gewährleistet. Das Fraunhofer IAIS wurde ausgewählt, um eine maßgeschneiderte Live-ASR-Software für diese Anforderungen zu liefern. Die genaue Transkription des komplexen sächsischen Dialekts und der politischen Fachterminologie erforderte eine Software, die in der Lage ist, verschiedene Dialekte zu entziffern und eine niedrige Wortfehlerrate (Englisch: Word Error Rate, kurz: WER) zu gewährleisten. Darüber hinaus musste die Datensicherheit und -kontrolle gewährleistet werden, weswegen ein „On-Premise Deployment“ bevorzugt war.
Die ASR-Software
Die vom Fraunhofer IAIS entwickelte Live-ASR-Software wurde so angepasst, dass sie die Herausforderungen der Echtzeit-Transkription in komplizierten sprachlichen Kontexten problemlos bewältigen konnte. Durch die Nutzung von Fachwissen im Bereich der Sprachanalyse und des Maschinellen Lernens kann die Software die Nuancen des sächsischen Dialekts effektiv interpretieren und die parlamentarische Terminologie präzise transkribieren. Dies ermöglichte die Live-Untertitelung der Plenarsitzungen und trug zu den Digitalisierungsbemühungen im Sächsischen Landtag bei.
Die Live-ASR-Technologie, die von Wissenschaftler*innen der Lamarr-Partnereinrichtung Fraunhofer IAIS entwickelt wurde, ist auf die Echtzeitumwandlung von Sprache in digitalen Text spezialisiert, selbst in schwierigen Umgebungen mit Hintergrundgeräuschen oder Dialekten. Die Technologie unterstützt Deutsch und Englisch, ist für spezifische Anwendungen anpassbar und kann in Umgebungen mit einer Vielzahl von unterschiedlichen Geräuschen eingesetzt werden. Sie bietet Vorteile wie eine vor Ort oder Cloud-basierte Bereitstellung, die Anpassung an Dialekte oder Fachvokabular und eine hohe Datensicherheit. Sie findet in verschiedenen Bereichen Anwendung, darunter das bereits erwähnte Parlament, in der Rundfunkbranche und sogar als Sprachassistent in Call-Centern und in anderen sprachgesteuerten Anwendungen.
Die automatische Spracherkennung (ASR) funktioniert, indem sie ein Audiosignal aufnimmt, in diesem Fall den/die Sprecher*in einer Parlamentsdebatte. Anschließend wird das Signal digitalisiert, und dieses digitale Signal auf phonetische Einheiten abgebildet. Dies geschieht mithilfe eines hybriden akustischen Modells, das aus einem neuronalen Netz und sogenannten Hidden Markov-Modellen (HMM) besteht. Im Anschluss gibt das Hybridmodell Phoneme aus, also zum Beispiel /ˈk/, /a/, /t͡s/, und /ə/, für das Wort Katze. Als Nächstes setzt ein Lexikon ein, das Wörter und ihre phonetische Repräsentation enthält, sowie ein Sprachmodell, das die Wahrscheinlichkeit vorhersagt, mit der ein Wort angesichts des Kontexts, in dem es steht, z. B. der zuvor erkannten Wörter als „Katze“, erkannt werden könnte. Dies alles geschieht in weniger als einer halben Sekunde und mit minimalen Hardwareanforderungen. Es gibt auch neuere Modellarchitekturen, die dem neuesten Stand der Technik entsprechen, die hier beschriebene Architektur wurde jedoch wegen ihres minimalen Ressourcenbedarfs (1 einzelner CPU-Kern) für die Echtzeit-Erkennung ausgewählt, wobei eine sehr hohe Genauigkeit gewährleistet ist. Das Zusammenspiel des akustischen Modells, Lexikons und Sprachmodells ist in der folgenden Grafik dargestellt:
Ein weiterer Vorteil der oben beschriebenen Architektur ist die einfache Anpassbarkeit: Jedes Modell kann separat trainiert werden. Dies ermöglicht eine optimale Anpassung an den jeweiligen Anwendungsfall. Das akustische Modell wurde auf einer riesigen Sammlung von Audioaufnahmen in einer Vielzahl von Umgebungen, mit unterschiedlichen Geräuschbedingungen und Akzenten trainiert, mit entsprechenden (phonetischen) Transkriptionen. Das Ergebnis ist ein sehr (geräusch-)robustes akustisches Modell. Das phonetische Lexikon kann regelmäßig mit Text und entsprechenden phonetischen Darstellungen aus einer Vielzahl von Quellen aktualisiert werden, die entweder automatisch erstellt oder manuell kuratiert wurden. Durch diese einfache Aktualisierung des Lexikons kann der Erkenner neu auftretende Wörter einbeziehen, ohne dass akustische Daten oder ein neues Training des akustischen Modells erforderlich sind. Auf diese Weise konnten insbesondere die speziellen politischen und lokalen Begriffe einbezogen werden. Schließlich wird das Sprachmodell auf einem sehr großen Korpus von Textdaten trainiert, ohne dass akustische Aufnahmen oder phonetische Darstellungen erforderlich sind, wodurch problemlos spezielle politische und lokale Ausdrücke aus Protokollen früherer Parlamentssitzungen, politischen Texten und anderen lokalen Quellen, z. B. Zeitungen, einbezogen werden konnten. All diese Anpassungen gewährleisten ein hohes Qualitätsniveau für das eingesetzte System und ermöglichen regelmäßige Aktualisierungen, insbesondere des Lexikons und des Sprachmodells, um neue aktuelle Begriffe und Phrasen aufzunehmen. Diese Anpassung wird im nächsten Abschnitt näher beschrieben.
Anpassungen
Bei der Implementierung der ASR-Software für die Transkription im Sächsischen Landtag stellte die genaue Transkription des sächsischen Dialekts und des parlamentarischen Wortschatzes eine große Herausforderung dar. Dies erforderte eine umfangreiche Anpassung und Evaluierung des ASR-Systems unter Verwendung von Textprotokollen und Videoaufzeichnungen früherer Parlamentsdebatten. (Für diejenigen, die weitere Einblicke in das Training von ASR-Modellen suchen, haben unsere Kollegen dieses Thema in einem früheren Blogbeitrag ausführlich behandelt. Die Textprotokolle, die spezifisches Vokabular für parlamentarische Kontexte enthalten, dienten als ideale Trainingsdaten. Durch die Analyse vorhandener Videoaufnahmen und der entsprechenden Protokolle wurde das ASR-System während und nach dem Training iterativ verfeinert.
Dieser iterative Prozess beinhaltete die Feinabstimmung der Software mit einer Vielzahl von parlamentarischen Reden, was zu einem maßgeschneiderten Wortschatz führte, der auf die in den Debatten diskutierten Themen zugeschnitten war. Dazu gehörten Abgeordnetennamen, politische und juristische Fachbegriffe und sogar sächsische Fachbegriffe. Zur Feinabstimmung wurden dem Trainingsalgorithmus große Mengen an Text- und teilweise auch Audiodaten zur Verfügung gestellt. Analog zum menschlichen Lernen aus Text- und Audiobeispielen brachte der Trainingsalgorithmus dem Spracherkennungsmodell bei, bestimmte Begriffe und Akzente besser zu verstehen.
Nach erfolgreicher Anpassung hat Lamarrs Partnerinstitut Fraunhofer IAIS in Zusammenarbeit mit dem Sächsischen Landtag eine Testphase der Software eingeleitet, die der vollständigen Implementierung vorausging.
Integration der Live-ASR-Software: Implementierung und Funktionsweise
Das Spracherkennungssystem wurde in die bestehende Aufzeichnungs- und Streaming-Infrastruktur des Sächsischen Landtags integriert. Zu diesem Zweck wurde die ASR-Software als On-Premise-Installation auf einem Server im Rechenzentrum des Landtags installiert. Audio- bzw. Videoströme von redundanten Streaming-Servern wurden anschließend mit dem ASR-System verbunden. Nach der Verarbeitung erstellte das Spracherkennungssystem ein Transkript für den Audiostrom. Die Erkennungsergebnisse wurden dann über eine spezielle Ausgangsverbindung vom ASR-System in ein Textfeld auf der Live-Stream-Website zusammen mit dem Live-Video übertragen. Das Textfeld enthält das gesamte Transkript, so dass man zurückblättern und den gesamten Kontext des Vortrags verfolgen kann. Die folgende Grafik gibt einen Überblick über das gesamte System. Eine weitere zweite Option, um Transkripte direkt in den Audio-/Videostream einzufügen, war geplant und ist in der Grafik dargestellt. Obwohl die Ausgabe innerhalb des Videos geplant war, wurde für den Sächsischen Landtag nur die Textfeldausgabe implementiert, um ein Zurückblättern im Transkript zu ermöglichen und einen längeren Textzusammenhang anzuzeigen, da dies von den Nutzer*innen als brauchbarer empfunden wurde.
Bedeutung und zukünftige Trends: Die Auswirkungen der Live-ASR-Implementierung
Die Einführung der Live-ASR-Software hatte erhebliche Auswirkungen, insbesondere für hörgeschädigte Personen, da die Plenarsitzungen in Echtzeit untertitelt werden können. Diese Möglichkeit verbessert nicht nur das unmittelbare Verständnis und Engagement der Teilnehmenden, sondern wird durch Live-Streaming-Dienste auch auf ein breiteres Publikum ausgeweitet und gewährleistet so Inklusion und Transparenz in der Verwaltung. Es sei darauf hingewiesen, dass der Sächsische Landtag die Live-ASR-Technologie freiwillig eingeführt hat, während die Europäische Union 2019 den Europäischen Rechtsakt zur Barrierefreiheit (EAA) verabschiedet hat, der darauf abzielt, Produkte und Dienstleistungen für Menschen mit Behinderungen und ältere Menschen besser zugänglich zu machen. Dazu gehört auch der Zugang zu audiovisuellen Mediendiensten, so dass ein potenzieller Anstieg der Nachfrage nach ASR-Implementierungen zur Erfüllung der gesetzlichen Anforderungen bis 2030 zu erwarten ist.
Neben der besseren Zugänglichkeit der Debatten für Zuschauende und Interessierte ergab sich aus der Implementierung auch ein unvorhergesehener Nutzen. Wie Herr Kindler erwähnt: Was ursprünglich gar nicht angedacht war, trat ein: Die hervorragende Texterkennung wurde auch für die Protokollerstellung entdeckt. Wir sind daher auf dem Weg zusammen mit dem IAIS diese Funktionen aufzugreifen, um mit weniger personellem Aufwand schneller als bisher Protokolle der Sitzungen und auch der Ausschüsse des Sächsischen Landtags erstellen zu können. Hier zeigt sich die Vielfalt, die eine ASR-Lösung bieten kann. Da die Live-ASR-Technologie von so guter Qualität ist, wird der Sächsische Landtag sie auch für andere Zwecke nutzen, in diesem Fall für die Erstellung von Debattenprotokollen, was den arbeitsintensiven Aufwand für den Sächsischen Landtag verringert.
Schlussfolgerung: Die Auswirkungen der Live-ASR-Software auf die Governance
Dieses Projekt dient als Beispielprojekt für andere Landtage und Veranstalter und verdeutlicht das transformative Potenzial der Live-ASR-Software in der Verwaltung. Die On-Premise-Bereitstellung, die Anpassung von Dialekten und Fachvokabular sowie die hohe Qualität der Software haben sie zu einer geeigneten Lösung für das Parlament gemacht, die nicht nur ein Engagement für Inklusion zeigt, sondern auch die künftige betriebliche Effizienz steigert. Um mit den Worten von Herrn Kindler zu schließen: Die Zufriedenheit, die sich aus fünf Jahren produktiver Nutzung ergibt, unterstreicht die Wirksamkeit des Live-ASR-Systems.
Wenn Sie mehr über das von den Wissenschaftler*innen des Fraunhofer IAIS entwickelte Live-ASR erfahren möchten, können Sie die Website hier besuchen.