In meinem letzten Beitrag habe ich die Frage aufgeworfen, ob wir ChatGPT Intelligenz oder sogar Bewusstsein zuschreiben sollten. Jetzt werde ich einige meiner Interaktionen mit dem Chatbot besprechen, bei denen ich versucht habe, dies herauszufinden. Auch wenn das tiefgründig klingt, muss ich betonen, dass es sich bei diesen Interaktionen nicht um streng wissenschaftliche Experimente handelte, sondern um spielerische, von Neugier getriebene Interaktionen; ich habe einfach ein paar spontane Fragen gestellt, um zu sehen, was passieren würde. Doch bevor wir zu diesen Fragen kommen, möchte ich kurz daran erinnern, wovon ich spreche.
Ein paar Worte zu Sprachmodellen
ChatGPT ist ein Chatbot, der auf einem sehr umfangreichen Sprachmodell namens GPT-3 basiert. Technisch gesehen ist ein Sprachmodell nur eine (komplizierte!) mathematische Beschreibung, wie Sätze in natürlicher Sprache typischerweise aussehen. Ich habe „typischerweise aussehen“ gesagt, um zu betonen, dass Sprachmodelle eher Statistiken als Linguistik berücksichtigen. Sie arbeiten nicht mit expliziten grammatikalischen Regeln über Subjekte, Objekte, Substantive, Verben, Adjektive und dergleichen. Nein, mit Hilfe von Algorithmen des maschinellen Lernens können Sprachmodelle trainiert werden, um abzuschätzen, mit welcher Wahrscheinlichkeit ein bestimmtes Wort in einem bestimmten Kontext vorkommt.
Wir alle wissen zum Beispiel, dass das fehlende Wort in dem Satz „Als ich nach Hause kam, wartete mein ___ an der Tür und wollte gestreichelt werden“ höchstwahrscheinlich „Hund“ oder vielleicht „Kater“ sein wird, aber sicher nicht „Goldfisch“ oder „Motorrad“. Woher wissen wir das? Weil wir solche Sätze schon oft gesehen oder gehört haben. Anders ausgedrückt: Im Laufe unseres Lebens haben wir alle irgendwie Wahrscheinlichkeiten für das gemeinsame Auftreten von Wörtern gelernt.
Wohlgemerkt, ich habe „irgendwie“ gesagt, denn wir wissen immer noch nicht genau, wie das menschliche Gehirn das macht. Dennoch können wir Sprachmodelle in unseren Computern implementieren. In der Regel handelt es sich dabei um abstrakte mathematische Darstellungen von Texten und künstliche neuronale Netze, die diese verarbeiten. Wenn diese Netze mit Milliarden von Textfragmenten trainiert werden, lernen sie die Wahrscheinlichkeit des gemeinsamen Auftretens von Wörtern und können dann Texte analysieren und synthetisieren. Anders ausgedrückt: Auf neuronalen Netzen basierende Sprachmodelle können verwendet werden, um automatisch Texte in natürlicher Sprache zu lesen und zu schreiben.
Kurzum: Obwohl ChatGPT so optimiert wurde, dass es Unterhaltungen führen kann, verwendet es letztendlich nur ein Sprachmodell, um seine Antworten zu erstellen. Wie intelligent kann es also überhaupt sein?
ChatGPT im Intelligenztest
Intelligenz ist ein vielschichtiges Phänomen und die Versuche, sie zu messen, sind umstritten. Dennoch gibt es standardisierte Tests, die versuchen, sie zu quantifizieren. Einer davon ist der Scholastic Assessment Test (SAT), der von amerikanischen Universitäten für die Zulassung zum College verwendet wird. In dem Paper, in welchem GPT-3 der Welt vorgestellt wurde, beschrieben die Wissenschaftler, die es entwickelt haben, einige Experimente mit SAT-Analogietests, die das Modell mit Bravour bestand. Ich dachte daher, ich sollte meine eigenen Analogietests mit ChatGPT ausprobieren. Hier ist ein kommentiertes Beispiel für einen entsprechenden Dialog:
Wie schon bei den Beispielen aus meinem letzten Beitrag kommt ChatGPT wieder einmal wie ein übereifriger Studierender daher und liefert eine ziemlich ausführliche Antwort. In diesem Fall hatte dies allerdings den Vorteil, dass ich feststellte, dass ich statt „Wortassoziationsspiel“ eigentlich „Wortanalogiespiel“ hätte sagen sollen. Aber, wie wir gleich sehen werden, hatte mein Fehler keine nachteiligen Folgen für den weiteren Dialog.
Nun, das ist interessant. ChatGPT versteht meine eher abstrakte Frage und gibt eine vernünftige Antwort. Allerdings ist die Begründung für diese Antwort merkwürdig. Es erklärt, dass die Maus im Vergleich zum Elefanten klein ist und winzig das Gegenteil von groß ist, aber klein ist nicht das Gegenteil von groß. Während die Antwort „winzig“ akzeptabel ist, ist die Begründung von ChatGPT für diese Antwort widersprüchlich. Ich stelle außerdem fest, dass „klein“ eine bessere Antwort wäre, da „winzig“ „sehr klein“ ist und das Gegenteil davon „sehr groß“ wäre, was man gemeinhin als „riesig“ (en. „huge“) bezeichnet. Wir sehen also wieder einmal, dass die Tendenz von ChatGPT, komplizierte Antworten zu geben, eher eine Schwäche als eine Stärke ist.
Noch wichtiger ist, dass dieses Beispiel zeigt, dass Sprachmodelle gut lesbare Texte in natürlicher Sprache produzieren können, aber nicht unbedingt deren Bedeutung verstehen. Um dies weiter zu untersuchen, habe ich einen noch gemeineren Test durchgeführt. Vor einiger Zeit besuchte ich einen Vortrag von Geoffrey Hinton, der 2018 den Turing-Preis für seine grundlegenden Beiträge zu neuronalen Netzen und Deep Learning erhielt. Hinton sprach über Mehrdeutigkeiten bei der Vorhersage von (Wort-)Sequenzen und gab ein Beispiel, das – seltsamerweise – mit Preisen und Trophäen zu tun hatte. Ich kann mich nicht mehr an alle Details erinnern, aber ich habe mein Bestes getan, um es zu reproduzieren.
So weit so gut, eine überraschend kurze und prägnante Antwort auf meine Frage. Hier kommt das gleiche Problem, aber jetzt drücke ich es auf eine eher ungeschickte oder verdrehte Weise aus.
Das ist nicht einmal annähernd richtig. Das Problem ist immer noch, dass die Tasche zu klein ist, um die Trophäe aufzunehmen. Aber zugegeben, die Art und Weise, wie ich meine Frage gestellt habe, ist unkonventionell und würde in einem alltäglichen Gespräch so nicht vorkommen. Also habe ich ChatGPT erneut befragt:
Das ist schön, führt aber zu nichts. Es macht Spaß zu sehen, dass ChatGPT ganze Geschichten erfindet, um das Gespräch in Gang zu halten. Ich betrachte das als eine Stärke, habe aber trotzdem aufgehört, weitere Fragen zu stellen, weil ich nicht erwartet habe, bessere Antworten zu bekommen. (Zur Erinnerung: Meine Interaktionen mit dem Chatbot waren spontan und nicht minutiös geplant.) Ich dachte jedoch weiter über diesen Dialog nach und kam zu dem Schluss, dass ich ihn mit einer etwas weniger verworrenen Formulierung wiederholen musste, und ein paar Tage später hatte ich dieses Gespräch:
Schön und gut, soweit waren wir schon einmal: Auf die erste Frage habe ich die richtige Antwort bekommen, aber die zweite Frage scheint für ein Sprachmodell, das aus typischen Textausschnitten gelernt hat, schwer zu bewältigen zu sein. Aber wie wäre es, wenn ich einen Hinweis gebe?
Gut! Jetzt reden wir. Mit Hilfe meines Hinweises kann ChatGPT jetzt das Problem erkennen und das Gespräch fortsetzen, ohne Geschichten erfinden zu müssen. Aber weiß es auch, dass es gerade etwas gelernt hat? Schauen wir mal:
Nein! So nah dran, aber der letzte Teil dieser langen Antwort macht wieder alles zunichte. Die Trophäe ist zu groß und die Tasche ist zu klein. Sie sind nicht beide zu klein.
Fazit
Alles in allem kann man wohl sagen, dass ChatGPT eine erstaunliche KI ist, weil man mit ihr genauso reden kann wie mit anderen Menschen. Aber sie ist noch nicht sehr intelligent.
Auf der einen Seite sehen wir, dass moderne Sprachmodelle sehr tragfähig sind und den Turing-Test bestehen können. Dieser ist nach Alan Turing benannt, der in den 1950er Jahren vorschlug, eine Maschine als intelligent zu bezeichnen, wenn sie (rein Text-basierte) Gespräche führen kann, die von (rein Text-basierten) Gesprächen mit Menschen nicht zu unterscheiden sind. ChatGPT kann solche Unterhaltungen führen!
Andererseits ist ChatGPT noch nicht der intelligenteste Gesprächspartner, den ich mir wünschen würde. Das heißt, wir sehen auch, dass nur weil eine KI ein Gespräch führen kann, dies nicht bedeutet, dass sie weiß, wie die Welt funktioniert.
Heißt das aber auch, dass eine solche KI nicht kognitiv sein kann? Immerhin hat sich ChatGPT daran erinnert, dass es eine sinnlose Antwort gegeben hat und erkannt, dass es eine vernünftigere gibt. Bedeutet das, dass es sich seiner selbst bewusst ist? Bleiben Sie dran, beim nächsten Mal werde ich diese Frage weiter untersuchen.