Evaluierung von Smalltalk anhand von Sprachmodellen: Sprachmodelltransformatoren als Evaluatoren für Open-Domain-Dialoge

Zwei Menschen mit Sprechblase
© Irina/stock.adobe.com & ML2R

Dialogsysteme, die heutzutage als Chatbots bezeichnet werden, gibt es seit den 1960er Jahren. Eines der ersten bekannten Beispiele für ein solches System ist ELIZA von Joseph Weizenbaum. Das System verwendete Schlüsselwort-Matching und Regeln zur Nachahmung der einfachen Rogerianischen Psychotherapie. Seitdem hat sich das Forschungsgebiet massiv weiterentwickelt und Dialogsysteme sind heute im Alltag präsent. So sind sie in Sprachassistenten wie Siri oder Alexa oder in Chatbots auf Social-Media-Plattformen, die uns helfen, einen Tisch im Restaurant zu reservieren oder uns bei Problemen unterstützen, weit verbreitet. Sie spielen auch eine immer wichtigere Rolle in industriellen Dialogumgebungen. Aber woher weiß man, dass der eigens entwickelte Chatbot tatsächlich funktioniert?  

Aufgabenorientierte Chatbots (wie bei der Unterstützung von Flugbuchungen) sind in der Regel komponentenbasiert. Ihre Aufgabe ist in Teilaufgaben unterteilt, wodurch eine automatisierte Auswertung möglich ist. Bis heute beinhaltet die Entwicklung solcher Systeme als letzte Stufe noch immer strenge Tests, die von realen Personen durchgeführt werden. Auch gibt es Chatbots, die nicht aufgabenorientiert sind (wie beispielsweise in Bezug auf Smalltalk) und evaluiert werden müssen. Bis jetzt ist der beste Weg, den wir haben, ihre Antwort anhand einer Referenz zu überprüfen. Wir alle wissen jedoch, dass es in einem informellen Gespräch, mehr als eine mögliche Antwort geben kann. Bisher ist es noch niemandem gelungen, ein Werkzeug, eine Methode oder einen Algorithmus zu entwickeln, mit dem sich messen lässt, wie gut sich diese Programme unterhalten. 

Für viele mag dies wie ein automatisierter Turing-Test klingen (von Alan Turing selbst auch „Imitationsspiel“ genannt). Eine solche Auswertung erfordert jedoch zwei wesentliche Fähigkeiten:  

  1. Man muss verstehen können, ob ein Dialog bestimmte Qualitätskriterien erfüllt, zum Beispiel ob die Konversation flüssig (korrekter Sprachgebrauch) oder kohärent (kontextrelevante Antwort) ist.  
  2. Man sollte in der Lage sein, ein Gespräch zu führen, das heißt eine Antwort zu geben, die den oben erwähnten Kriterien entspricht. Da wir über kein System verfügen, das letzteres korrekt (zumindest noch nicht) durchführen kann, können wir den Turing-Test nicht automatisieren. Stattdessen konzentrieren wir uns darauf, die Flüssigkeit und Kohärenz eines Dialogs zu messen. 

  

Warum haben Sprachmodelle ein „Gefühl“ für fließende und kohärente Dialoge? 

Schnell stellt sich folgende Frage: Um zu wissen, was ein fließender und kohärenter Dialog ist, muss man doch wissen, wie man sich gut unterhalten kann?  

Nicht ganz! Es ist für jeden nachvollziehbar, dass das Lesen von Büchern dabei helfen kann, eine Sprache als Muttersprachler oder als Nicht-Muttersprachler zu beherrschen. Im Wesentlichen ist dies das, was Sprachmodelle wie BERT (Devlin et al., 2018), GPT2 (Radford et al., 2019) oder XLNet (Yang et al., 2019) mehr oder weniger leisten. Sie „lesen“ viele Artikel aus online Nachrichten oder Wikipedia und „eignen sich dadurch Kenntnisse“ über die konsumierte Sprache an. Allerdings hat keiner von ihnen gelernt, sich an einem Dialog zu beteiligen (Mehr Informationen zu „Fähigkeiten und Limitationen von Sprachmodellen„).

Bild 1 9 - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
© Irina/stock.adobe.com & ML2R

In unserer Arbeit „Language Model Transformers as Evaluators for Open-domain Dialogues“ zeigen wir, dass Sprachmodelle „ein Gefühl“ dafür haben, was ein kohärenter und flüssiger Dialog sein könnte. Dieses „Gefühl“ haben sie sich allein durch das „Lesen von Büchern“ angeeignet. Einfach ausgedrückt: Sprachmodelle haben gelernt, das wahrscheinlichste Wort oder die wahrscheinlichsten Wörter in einem bestimmten Kontext zu erraten. Jeder der drei oben genannten Ansätze tut dies auf seine eigene Weise. Wir wollten herausfinden, ob ihre „Fähigkeit“ ein guter Indikator für die Qualität eines Gesprächs sein kann. 

Somit fragten wir Sprachmodelle, wie „wahrscheinlich“ Antworten in Dialogen sind. Für unsere Tests verwendeten wir die teilnehmenden Systeme in den Herausforderungen ConvAI1 und ConvAI2. Dann prüften wir, ob es eine Korrelation zwischen dem „likeliness score“ der Sprachmodelle und den Bewertungen der menschlichen Annotatoren gibt. Es stellte sich heraus, dass es (einige) gibt! Je nach verwendetem Sprachmodell- und Dialogdatensatz, entdeckten wir positive Korrelationskoeffizienten (Pearson’s und Spearman’s) zwischen 0,13 und 0,49 mit hoher statistischer Signifikanz. BERT’s Next Sentence Prediction (NSP) schneidet am besten ab, da es auf der Ebene der Äußerungen und nicht auf der Ebene der Tokens funktioniert. Sie wird gefolgt von XLNet, welches Positionsinformationen für jedes Zielwort verwendet. Schließlich kommt GPT2 hinzu, eine standardmäßige Wort-für-Wort-Prognose von links nach rechts. 

Bild 2 1 - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
© Uni Bonn / Fraunhofer IAIS

Das ist erstaunlich! Wenn also Sprachmodelle „eine eigene Meinung haben“, dann haben wir sie nicht nur gebeten, den Dialog zu bewerten, sondern wir haben sie auch gefragt, was aus ihrer Sicht eine gute Antwort ist? 

Ja, das haben wir! Zwei von ihnen, GPT2 und XLNet, sind in der Lage, ganze Sätze zu generieren. Also baten wir die beiden, die Gespräche von ConvAI1 und ConvAI2 weiterzuführen. Ihre Antworten waren zwar nicht ganz flüssig, aber sie waren verständlich und machten im Kontext Sinn. Wenn man sie darüber hinaus mit dem zuvor erwähnten Wahrscheinlichkeitswert vergleicht, hatten die Wahrscheinlichkeitswerte dieser hypothetischen Antworten eine noch höhere Korrelation mit den Werten des menschlichen Annotators. Abhängig von dem Sprachmodell und dem Datensatz gab es eine durchschnittliche Zunahme der Korrelation um etwa 0,05. Heißt das also, dass die Sprachmodelle besser sind als die Systeme ConvAI1 und ConvAI2? Möglicherweise! Beide Wettbewerbe fanden vor den Anfängen der Transformator-LMs statt, und daher ist ein solcher Vergleich unfair. 

Bild 3 - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
© Uni Bonn / Fraunhofer IAIS
Auf den ersten Blick erscheinen die abgetasteten generierten Antworten alles andere als gut. Entfernt man jedoch den ersten und letzten Spielstein, erhalten wir eine perfekte Antwort.

Fazit  

Gegenwärtig funktioniert der Ansatz nur bei Äußerungspaaren. Er muss verbessert werden, um den gesamten Kontext und nicht nur die letzte Äußerung zu berücksichtigen. Wir haben gesehen, dass ein umfassenderer Ansatz wie der NSP des BERT von Vorteil ist. Wir würden also untersuchen, wie man eine Dialogbewertung erhalten kann, ohne dass ein Aggregationsschritt erforderlich ist.  

Mehr Informationen zu der zugehörigen Publikation: 

Language Model Transformers as Evaluators for Open-domain Dialogues
Nedelchev, Rostislav, Jens Lehmann, and Ricardo Usbeck, Proceedings of the 28th International Conference on Computational Linguistics, 2020, PDF 

Link zum Code: https://github.com/SmartDataAnalytics/transformers_dialogue_evaluators 

Dies war ein Gastbeitrag des SDA Blogs. Hier geht es zur englischen Version des Blogbeitrags: Link

Rostislav Nedelchev,

23. Februar 2022

Themen

Rostislav Nedelchev

Rostislav Nedelchev ist Doktorand am Lamarr Institut (Universität Bonn) und arbeitet als Senior Machine Learning Engineer bei der Alexander Thamm GmbH. Rostislavs Forschungsinteressen liegen in den Bereichen Natural Language Processing, Machine Learning und Data Science. Insbesondere beschäftigt er sich mit der automatischen Evaluation von Dialogsystemen.

Weitere Blogartikel