Chemie-KIs müssen nichts von Chemie verstehen

Prof. Dr. Jürgen Bajorath and doctoral student Jannik P. Roth - from Life Science Informatics at the University of Bonn.
© Gregor Hübl/University of Bonn

Sprachmodelle kommen inzwischen auch in den Naturwissenschaften zum Einsatz. In der Chemie werden sie etwa genutzt, um potenzielle Wirkstoffe vorherzusagen. Dazu müssen sie zunächst aufwändig trainiert werden. Doch Wissen über biochemische Zusammenhänge eignen sie sich dabei offenbar nicht an. Stattdessen ziehen sie ihre Schlüsse auf Basis von Ähnlichkeiten und statistischen Korrelationen – wie eine aktuelle Studie von Forschenden des Lamarr-Instituts für Maschinelles Lernen und Künstliche Intelligenz an der Universität Bonn zeigt. Die Ergebnisse sind nun in der Fachzeitschrift Patterns erschienen.

Große Sprachmodelle sind oft verblüffend gut in dem, was sie tun – ob sie mathematische Beweise führen, Musik komponieren oder Werbeslogans entwerfen. Doch wie kommen sie zu ihren Ergebnissen? Verstehen sie tatsächlich, was eine Symphonie ausmacht oder einen guten Witz? „Alle Sprachmodelle sind eine Black Box“, betont Prof. Dr. Jürgen Bajorath, der am Lamarr-Institut den interdisziplinären Forschungsbereich Life Sciences & Health verantwortet. „Es ist schwer, ihnen – metaphorisch gesprochen – in den Kopf zu schauen.“

Der Chemieinformatiker hat gemeinsam mit Doktorand Jannik P. Roth genau das versucht – und zwar für eine besondere Form von KI-Algorithmen: die chemischen Transformermodelle. Sie funktionieren im Prinzip ähnlich wie ChatGPT, Google Gemini oder Elon Musks „Grok“. Während diese Modelle mit riesigen Mengen an Texten trainiert wurden und so gelernt haben, selbst Sätze zu formulieren, basieren chemische Sprachmodelle in der Regel auf deutlich weniger Daten. Sie eignen sich ihr Wissen anhand molekularer Repräsentationen und Beziehungen an, etwa durch sogenannte SMILES-Strings – Zeichenfolgen, die Moleküle und deren Struktur als Sequenz von Buchstaben und Symbolen darstellen.

Schematic representation of a transformer model - for predicting new compounds from protein sequence data.
Schematische Darstellung eines Transformermodells zur Vorhersage neuer Verbindungen auf der Basis von Proteinsequenzdaten. © J. P. Roth und J. Bajorath

Trainingsdaten gezielt manipuliert

In der pharmazeutischen Forschung sucht man häufig nach Substanzen, die bestimmte Enzyme hemmen oder Rezeptoren blockieren. Mit chemischen Sprachmodellen lässt sich beispielsweise versuchen, aktive Moleküle auf Grundlage der Aminosäuresequenzen von Zielproteinen vorherzusagen. „Wir haben dieses sogenannte sequenzbasierte Moleküldesign als Testsystem genutzt, um besser zu verstehen, wie die Transformer zu ihren Vorhersagen kommen“, erklärt Roth. „Wenn man ein solches Modell nach einer Anlernphase mit einem neuen Enzym füttert, schlägt es mit etwas Glück eine Verbindung vor, die dieses Enzym hemmen könnte. Doch bedeutet das, dass die KI gelernt hat, nach welchen biochemischen Prinzipien so eine Hemmung funktioniert?“

Um dieser Frage nachzugehen, manipulierten die Forschenden die Trainingsdaten gezielt. „Wir haben das Modell zunächst nur mit einer bestimmten Gruppe von Enzymen und deren Hemmstoffen trainiert“, erläutert Bajorath. „Wenn wir dann im Test ein neues Enzym aus derselben Familie verwendet haben, schlug der Algorithmus tatsächlich einen plausiblen Hemmstoff vor.“ Wurde dagegen ein Enzym aus einer anderen Familie getestet – also eines mit völlig anderer Funktion im Körper – lieferte das chemische Sprachmodell nur unbrauchbare Ergebnisse.

Statistische Daumenregel statt biochemischem Verständnis

„Das spricht dagegen, dass das Modell allgemeingültige chemische Prinzipien erlernt hat – also weiß, wie eine Enzymhemmung chemisch abläuft“, so Bajorath. Stattdessen beruhen die Vorschläge auf statistischen Zusammenhängen und Mustern in den Daten: Wenn ein neues Enzym einem bereits bekannten ähnelt, wird ein ähnlicher Hemmstoff funktionieren. „Eine solche Daumenregel muss nicht zwangsläufig schlecht sein“, betont Bajorath. „Sie kann zum Beispiel helfen, neue Einsatzgebiete für bekannte Wirkstoffe zu entdecken.“

Allerdings zeigten die Modelle in der Studie keinerlei biochemisches Verständnis, selbst bei der Bewertung von Ähnlichkeiten. So hielten sie Enzyme (oder auch Rezeptoren und andere Proteine) stets dann für ähnlich, wenn ihre Aminosäuresequenzen zu 50 bis 60 Prozent übereinstimmten. Die restlichen Sequenzen konnten beliebig durcheinandergewürfelt werden – ohne Einfluss auf das Ergebnis. Dabei sind häufig nur bestimmte Bereiche eines Enzyms entscheidend für dessen Funktion. Eine einzige veränderte Aminosäure kann die Aktivität vollständig aufheben. „Die Modelle lernten während ihres Trainings nicht, wichtige von unwichtigen Sequenzanteilen zu unterscheiden“, erklärt Bajorath.

Modelle plappern zuvor Gehörtes nach

Die Ergebnisse der Studie zeigen eindrucksvoll, dass den Modellen zumindest für dieses Testsystem jegliches tiefere chemische Verständnis fehlt. Bildlich gesprochen plappern sie nur mit Variationen nach, was sie zuvor in ähnlichen Kontexten gesehen haben. „Das bedeutet nicht, dass sie für die Wirkstoffforschung ungeeignet sind“, betont Bajorath, der auch Mitglied im Transdisziplinären Forschungsbereich (TRA) Modelling der Universität Bonn ist. „Sie können durchaus Wirkstoffe vorschlagen, die bestimmte Rezeptoren blockieren oder Enzyme hemmen. Das tun sie aber nicht, weil sie Chemie verstehen, sondern weil sie Ähnlichkeiten in textbasierten molekularen Repräsentationen und statistischen Korrelationen erkennen. Ihre Ergebnisse sind wertvoll – man darf sie nur nicht überinterpretieren.“

Publikation

Jannik P. Roth, Jürgen Bajorath: Unraveling learning characteristics of transformer models for molecular design, Patterns, https://doi.org/10.1016/j.patter.2025.101392, URL: https://www.cell.com/patterns/fulltext/S2666-3899(25)00240-5

Weitere News