Diffusionsmodelle im Wirkstoffdesign analysiert

Diagramm zur Linker-Generierung durch Diffusionsmodelle zeigt Einfluss benachbarter Atome auf molekulare Strukturen
Die Grafiken zeigen, wie Diffusionsmodelle Linker zwischen Molekülfragmenten generieren. Die Entwicklung der Abweichung während des Generierungsprozesses verdeutlicht, dass benachbarte Atome die Struktur der erzeugten Moleküle maßgeblich beeinflussen.

Diffusionsmodelle werden zunehmend für die Entwicklung neuer Wirkstoffe eingesetzt. Doch welche Mechanismen dabei im Inneren der Modelle wirken, ist bislang nur teilweise verstanden. Eine aktuelle Studie von Dr. Andrea Mastropietro und Prof. Dr. Jürgen Bajorath von der Universität Bonn und dem Lamarr-Institut für Maschinelles Lernen und Künstliche Intelligenz, im Fachjournal Cell Reports Physical Science veröffentlicht, untersucht nun, wie diese KI-Modelle tatsächlich arbeiten und zeigt, dass sie chemische Zusammenhänge anders nutzen als bislang oft angenommen.

Diffusionsmodelle sind eine Form generativer KI. Sie erzeugen neue Daten, indem sie schrittweise sogenanntes Rauschen aus bestehenden Beispielen entfernen. Rauschen bezeichnet dabei zufällige Veränderungen, die ein ursprüngliches Muster überlagern. Was zunächst bei Bildern und Videos eingesetzt wurde, wird inzwischen auch für chemische Fragestellungen eingesetzt. Die Studie untersucht das sogenannte Linker-Design. Dabei geht es um molekulare Verbindungsstücke, die einzelne Teile eines Moleküls zusammenführen und maßgeblich dessen Eigenschaften beeinflussen, etwa wie gut ein Wirkstoff an sein Ziel bindet.

Wie das Modell Moleküle zusammensetzt

Zur Analyse des Generierungsprozesses entwickelten die Forschenden eine Methode namens DiffSHAPer. Sie basiert auf dem Konzept der Shapley-Werte aus der erklärbaren KI. Shapley-Werte stammen ursprünglich aus der Spieltheorie und beschreiben, welchen Beitrag einzelne Elemente zu einem Gesamtergebnis leisten. Übertragen auf das Modell bedeutet das, dass sich quantifizieren lässt, wie stark einzelne Atome eines Molekülfragments die Generierung eines Linkers beeinflussen. So wird sichtbar, welche Teile eines Moleküls die Entstehung eines Linkers besonders stark beeinflussen.

Die Ergebnisse zeigen, dass das untersuchte Modell bei der Erzeugung chemisch valider Linker vor allem räumliche Abstände zwischen Atomen berücksichtigt. Hinweise darauf, dass es dabei generalisierbare chemische Regeln oder funktionale Zusammenhänge systematisch nutzt, fanden die Forschenden nicht. Stattdessen scheint die Generierung wesentlich durch wiederkehrende statistische Muster in den Trainingsdaten geprägt zu sein.

Was das für Forschung und Praxis bedeutet

Für die Wirkstoffentwicklung bedeutet das: Diffusionsmodelle liefern zwar formal korrekte Molekülstrukturen, deren funktionale Eigenschaften lassen sich daraus jedoch nicht unmittelbar ableiten. Ob diese auch die gewünschten Eigenschaften besitzen, etwa stabil sind oder gezielt an ein biologisches Ziel binden, ist damit jedoch nicht automatisch gewährleistet. Ein Linker, der vor allem auf geometrischen Kriterien basiert, kann funktional ungeeignet sein. Die Ergebnisse berühren damit eine zentrale Frage aktueller KI-Forschung: In welchem Maß erfassen generative Modelle fachliche Zusammenhänge oder bilden sie primär statistische Korrelationen ab. Gerade in wissenschaftlichen Anwendungsfeldern wie der Arzneimittelentwicklung ist diese Unterscheidung entscheidend, da Fehlannahmen über die Funktionsweis eines Modells direkte Auswirkungen auf Forschungsergebnisse haben können.Die Arbeit fügt sich in die Forschung des Lamarr-Instituts zu vertrauenswürdiger und erklärbarer KI ein. Im Mittelpunkt steht die Analyse komplexer Modelle, deren Ergebnisse überprüfbar und wissenschaftlich einordenbar sein müssen. Die Studie zeigt exemplarisch, wie sich generative Verfahren im Detail untersuchen lassen und ermöglicht die gezielte Weiterentwicklung solcher Modelle.

Weitere News