Bisher erstellen Sprachmodell-basierte Bewertungen von Chatbots nur einen Score über die Gesamtqualität, ohne beispielsweise den Zusammenhang des Dialogs zu beachten. Mit Modellen, die auf GLUE-Aufgaben trainiert sind, hat das ein Ende.
Dialogsysteme sind in Sprachassistenten wie Siri oder Alexa oder in Chatbots auf Social-Media-Plattformen weit verbreitet. Aber woher weiß man, dass der eigens entwickelte Chatbot tatsächlich funktioniert?
Intelligente Sprachmodelle erhalten beständig mehr Einzug in unseren Alltag und nehmen Einfluss auf uns. Doch sind sie alle nützlich? Können wir sie noch von Menschen unterscheiden oder bedarf es neuer Forschungsansätze?