Mehr sehen, besser versorgen: KI-basierte ophthalmologische Videoanalyse für die globale Augenheilkunde

@ generated using ChatGPT by OpenAI

Während medizinisches Wissen, Diagnosetechnologien und Behandlungsmöglichkeiten immer weiter voranschreiten, gibt es in weiten Teilen der Welt nach wie vor strukturelle Einschränkungen beim Zugang zur Augenversorgung. Vermeidbare oder behandelbare Erkrankungen wie diabetische Retinopathie und Katarakte gehören weltweit nach wie vor zu den häufigsten Ursachen für Sehbehinderungen und Erblindung, wobei die Belastung in Ländern mit niedrigem und mittlerem Einkommen am höchsten ist. Die begrenzte Verfügbarkeit von ausgebildeten Fachärzten, infrastrukturelle Einschränkungen und logistische Hindernisse schränken weiterhin die Früherkennung und systematische Qualitätssicherung ein.

Die Forschung bei Lamarr (Prof. Dr. Thomas Schultz) in enger Zusammenarbeit mit dem Universitätsklinikum Bonn (PD Dr. Maximilian Wintergerst), der Sankara Eye Foundation Indien (Dr. Kaushik Murali) und Microsoft Research Indien (Mohit Jain, PhD) geht diese Herausforderungen mit einer KI-basierten ophthalmologischen Videoanalyse an. Der Ansatz kombiniert kostengünstige Bild- und Videoaufnahmen – wie beispielsweise Smartphone-basierte Netzhautaufnahmen – mit automatisierter Videoanalyse auf Basis künstlicher Intelligenz und maschinellem Lernen. Ziel ist es, vorhandene Diagnose- und Operationsdaten besser zugänglich und interpretierbar zu machen, insbesondere in Umgebungen, in denen die konventionelle Infrastruktur begrenzt ist.

KI-basierte ophthalmologische Videoanalyse für Screening auf diabetische Retinopathie – Verbesserter Zugang zur augenärztlichen Versorgung

Eine Möglichkeit, wie die KI-basierte ophthalmologische Videoanalyse die Gesundheitsversorgung im globalen Süden verbessern kann, ist die Erweiterung des Zugangs zu routinemäßigen Augenuntersuchungen. In vielen Regionen sind die Möglichkeiten für Vorsorgeuntersuchungen aufgrund des Mangels an ausgebildeten Fachärzten, langer Anfahrtswege und hoher Untersuchungskosten nach wie vor begrenzt. Die diabetische Retinopathie ist ein prominentes Beispiel dafür, dass systematische Vorsorgeuntersuchungen unerlässlich, aber nicht durchgängig verfügbar sind.

Die diabetische Retinopathie ist eine häufige und schwerwiegende Komplikation von Diabetes. Sie schädigt die die kleinen Blutgefäße der Netzhaut, dem lichtempfindlichen Gewebe im Augenhintergrund. Im Frühstadium verursacht die Krankheit oft keine erkennbaren Symptome. Ein Verlust der Sehkraft tritt in der Regel erst in fortgeschrittenen Stadien auf, in denen die Behandlung komplexer und weniger wirksam ist. Daher ist die diabetische Retinopathie weltweit nach wie vor eine der Hauptursachen für vermeidbare Erblindung. Durch regelmäßige Vorsorgeuntersuchungen können Ärzte charakteristische Veränderungen der Netzhaut lange vor dem Einsetzen einer Sehbeeinträchtigung erkennen, wenn eine Behandlung noch möglich ist.

In Ländern mit hohem Einkommen werden im Rahmen telemedizinischer Vorsorgeprogramme zur Erkennung der diabetischen Retinopathie mit speziellen Kameras Bilder der Netzhaut aufgenommen. Diese Bilder werden von Augenärzten oder geschulten Gutachtern ausgewertet. Seit einigen Jahren stehen zertifizierte KI-basierte medizinische Geräte zur Verfügung, die die Beurteilung der Bildqualität und die bildbasierte Diagnose automatisieren. Sie zeigen, dass eine automatisierte Analyse sicher und ähnlich genau ist wie die Befundung durch Experten. Diese Systeme sind jedoch auf relativ große und kostspielige Hardware angewiesen, was ihre Anwendbarkeit in ressourcenarmen Umgebungen, insbesondere in abgelegenen oder ländlichen Gebieten, einschränkt.

Smartphone-basierte Systeme zur Darstellung der Netzhaut haben sich als vielversprechende portable und vergleichsweise kostengünstige Alternative herausgestellt und eignen sich ideal für den Einsatz in Ländern mit niedrigem und mittlerem Einkommen. Bereits Standard-Smartphones liefern eine für die Diagnose nutzbare Bildqualität, wenn man sie mit speziellen optischen Adaptern ausstattet, die auch in kostengünstigen Varianten erhältlich sind. Eine solche Ausrüstung lässt sich leicht transportieren und eröffnet neue Möglichkeiten für die Früherkennung in Umgebungen, in denen derzeit keine herkömmliche Bildgebungsinfrastruktur verfügbar ist.

Dennoch stellt es eine gewisse Herausforderung dar, mit solch einer Ausrüstung einzelne hochwertige Bilder der peripheren Netzhautbereiche zu erhalten, wie sie traditionell für die Diagnose erforderlich sind – insbesondere, wenn die Untersuchungen nicht von Spezialisten oder unter Zeitdruck durchgeführt werden. Die Aufnahme mehrerer Bilder und die manuelle Auswahl der geeignetsten Bilder erfordert Erfahrung und verlängert die Untersuchungszeit. Aus diesem Grund konzentrieren sich die laufenden Arbeiten bei Lamarr und der Universitätsklinik Bonn in Zusammenarbeit mit verschiedenen Partnern in Ländern mit niedrigem und mittlerem Einkommen (Sankara Eye Foundation Indien, University of Calabar Teaching Hospital, Nigeria, Organization for Rural Community Development Bangladesh und University of Cape Coast, Ghana) auf die Entwicklung eines Systems, das die Fähigkeit moderner Smartphones nutzt, kurze Netzhautvideos aufzunehmen, während der Untersucher den Fokus einstellt und verschiedene Netzhautbereiche scannt.

Um dem Nutzer die aufwändige Identifizierung optimaler Bilder abzunehmen, verarbeitet unsere videobasierte Strategie die vollständigen Sequenzen direkt und automatisch mittels einer KI-basierten Analyse. Zudem enthalten die Videos mehrere Ansichten der Netzhaut, wodurch die Wahrscheinlichkeit steigt, dass diagnostisch relevante Bereiche in mindestens einigen Bildern in ausreichender Qualität erfasst werden. Schließlich können zeitliche Informationen Algorithmen dabei unterstützen, anatomische Merkmale von Artefakten wie Reflexionen oder momentanen Unschärfen zu unterscheiden.

Durch die Kombination von Smartphone-basierter Bildgebung mit KI-gesteuerter Videoanalyse zielt dieser Ansatz darauf ab, die Untersuchung auf diabetische Retinopathie skalierbarer und breiter verfügbar zu machen. Er soll die technischen Hürden für die Bildaufnahme senken, ohne aufwändige Ausbildung nutzbar sein und die Untersuchung in Umgebungen unterstützen, in denen die traditionelle Infrastruktur begrenzt ist. Auf diese Weise könnten derzeit unterversorgte Bevölkerungsgruppen Zugang zu einer frühzeitigen Diagnose erhalten, was eine rechtzeitige Behandlung ermöglicht und das Risiko eines vermeidbaren Sehverlusts verringert.

Die Finanzierung erfolgt durch die Else Kröner-Fresenius-Stiftung (Förderlinie „Digitale Gesundheit in Entwicklungsländern”) und das Bundesministerium für wirtschaftliche Zusammenarbeit und Entwicklung (Förderlinie „Klinikpartnerschaften Global”).

Wenn die KI Chirurgen über die Schulter schaut – KI-basierte ophthalmologische Videoanalyse in der Kataraktchirurgie

Wir haben gesehen, wie die automatisierte Analyse visueller Daten die Diagnose unterstützen kann. Die gleichen Prinzipien der KI-basierten ophthalmologischen Videoanalyse gelten auch im chirurgischen Umfeld. Als zweite Anwendung untersuchen wir, wie ähnliche Ideen die Kataraktchirurgie verbessern können, insbesondere in ressourcenarmen Umgebungen.

Der Graue Star ist eine Trübung der natürlichen Linse des menschlichen Auges. Er entwickelt sich häufig mit zunehmendem Alter, kann aber auch im Zusammenhang mit anderen Erkrankungen, darunter Diabetes, auftreten. Die Erkrankung führt zu verschwommenem Sehen und erhöhter Lichtempfindlichkeit und ist in fortgeschrittenen Stadien nach wie vor eine der weltweit häufigsten Ursachen für Erblindung. Die einzige wirksame Behandlung ist der chirurgische Ersatz der getrübten Linse durch eine künstliche Intraokularlinse. Die Kataraktoperation ist daher weltweit einer der häufigsten chirurgischen Eingriffe.

In Ländern mit hohem Einkommen wird die Kataraktoperation in der Regel mit der sogenannten Phakoemulsifikation durchgeführt, bei der die getrübte Linse mit einer Ultraschallsonde zertrümmert wird. Dies erfordert spezialisierte und vergleichsweise teure Geräte, umfangreiche Schulungen, strukturierte Qualitätskontrollen und postoperative Nachsorgen, führt dafür in der Regel aber zu hervorragenden Operationsergebnissen und niedrigen Komplikationsraten. In vielen Ländern mit niedrigem und mittlerem Einkommen müssen viele Patienten in kurzer Zeit behandelt werden. Dies erfolgt in der Regel mit der kostengünstigeren manuellen Small-Incision-Technik (engl. Small-Incision Cataract Surgery, SICS), bei der die Linse in einem Stück entfernt wird.

Die Notwendigkeit in kurzer Zeit viele solcher Operationen durchzuführen bringt Herausforderungen für die Ausbildung, Qualitätssicherung und kontinuierliche Verbesserung mit sich. In diesem Zusammenhang stellen Videoaufzeichnungen ein ungenutztes Potenzial dar, das durch die laufende Zusammenarbeit zwischen Lamarr, dem Universitätsklinikum Bonn, der Sankara Eye Foundation India und Microsoft Research India genutzt werden soll.
Da Kataraktoperationen unter einem Operationsmikroskop durchgeführt werden lassen sie sich leicht auf Video aufzeichnen. Diese Aufzeichnungen enthalten detaillierte Informationen über den Ablauf der Operation, den Einsatz der Instrumente und Ereignisse, die mit Komplikationen oder suboptimalen Ergebnissen in Verbindung stehen. Dennoch werden die meisten Operationsvideos nur selektiv überprüft – beispielsweise im Falle von Komplikationen oder zu Lehrzwecken. Die schiere Menge solcher Videos macht eine systematische manuelle Analyse unmöglich.

Hier kommt die automatisierte Videoanalyse ins Spiel. Durch die Analyse von Operationsvideos können KI-Systeme die Überwachung der Operationsleistung unterstützen, Abweichungen von Standardabläufen identifizieren und frühe Risikoindikatoren erkennen. Eine solche postoperative Analyse kann die Ausbildung von Nachwuchsärzten unterstützen, aber auch erfahrenen Ärzten ein objektives Feedback geben und zur Qualitätssicherung auf Ebene gesamter Operationsprogramme beitragen.

Eine grundlegende Aufgabe bei der Analyse solcher Videos ist die Erkennung von OP-Phasen. Sie soll identifizieren, welcher Schritt des Eingriffs gerade durchgeführt wird – beispielsweise der Schnitt, die Entfernung der getrübten Linse oder die Implantation der Intraokularlinse. Frühere Arbeiten hierzu haben sich auf die Phakoemulsifikation beschränkt, die vorwiegend in Ländern mit hohem Einkommen zum Einsatz kommt. Wir haben dagegen den ersten Ansatz zur Phasenerkennung in SICS-Videos vorgestellt. Unsere Ergebnisse deuten darauf hin, dass diese Umgebung aufgrund der größeren Anzahl von Phasen und der längeren Gesamtdauer des Eingriffs eine größere Herausforderung darstellt. Um die Forschung in diesem Bereich voranzutreiben, haben wir einen internationalen Wettbewerb organisiert, bei dem erstmals ein großer annotierter Datensatz mit SICS-Videos der breiteren wissenschaftlichen Gemeinschaft zur Verfügung gestellt wurde. Beiträge aus vier verschiedenen Kontinenten führten zu einem neuartigen Ansatz, der die jüngsten Fortschritte bei Basismodellen (engl. Foundation models) und aufmerksamkeitsbasierter zeitlicher Modellierung nutzt und die Genauigkeit nicht nur für SICS, sondern auch für bestehende Datensätze zur Phakoemulsifikation erhöht.

Die Phasenerkennung wird oft getrennt von der Instrumentensegmentierung untersucht, bei der es darum geht, die während der Operation verwendeten chirurgischen Instrumente zu identifizieren und zu lokalisieren. Unsere jüngsten Arbeiten untersuchen die Möglichkeiten, die sich aus ihrer natürlichen gegenseitigen Abhängigkeit ergeben. Bestimmte Instrumente werden in der Regel in bestimmten Phasen der Operation verwendet, und Änderungen in der Instrumentennutzung signalisieren oft Übergänge zwischen den Phasen. Wir zeigen, dass KI-Systeme, die diese Muster des gemeinsamen Auftretens von Instrumenten und Phasen berücksichtigen, eine robustere und genauere Analyse erzielen können als Systeme, die jede Aufgabe isoliert betrachten.

Über die Verbesserung der algorithmischen Leistung hinaus unterstützt diese gemeinsame Analyse auch eine klinisch aussagekräftige Interpretation. Beispielsweise kann eine unerwartete Instrumentennutzung innerhalb einer bestimmten Phase oder eine verlängerte Dauer bestimmter Phasen auf technische Schwierigkeiten oder ein erhöhtes Komplikationsrisiko hinweisen und so sowohl einzelnen Chirurgen als auch der gesamten Abteilung strukturiertes Feedback liefern.

Unser derzeitiger Schwerpunkt liegt auf der postoperativen Videoanalyse. Die gleichen Technologien eröffnen jedoch auch Perspektiven für die Echtzeitunterstützung im Operationssaal. Grundsätzlich könnten KI-Systeme den Operationsverlauf in Echtzeit überwachen, kontextbezogene Anweisungen geben oder Chirurgen und Vorgesetzte auf potenzielle Probleme aufmerksam machen, bevor diese eskalieren. Die Entwicklung solcher Systeme erfordert nicht nur technische Fortschritte, sondern auch einen ethischen und regulatorischen Rahmen. All dies ist Teil unserer laufenden Arbeit.

Auswirkungen auf die klinische Praxis und die Gesundheitsversorgung

Zusammenfassend zeigen die Beispiele des Screenings für diabetische Retinopathie und der Videoanalyse bei Kataraktoperationen, wie die Kombination von tragbaren und kostengünstigen Bild- oder Videoaufnahmegeräten mit maschinellem Lernen die Patientenversorgung unterstützen kann, insbesondere in Bereichen mit begrenzten Ressourcen.

Bei der Untersuchung auf diabetische Retinopathie senkt die Smartphone-basierte Videoanalyse die Hürden für eine frühzeitige Diagnose und macht die Untersuchung für unterversorgte Bevölkerungsgruppen zugänglicher. Bei Kataraktoperationen unterstützt die automatisierte postoperative Videoanalyse die Ausbildung, Überwachung und Qualitätssicherung in klinischen Einrichtungen mit hohem Patientenaufkommen und trägt so zu besseren Behandlungsergebnissen und einer höheren Betriebseffizienz bei. In beiden Szenarien ergänzt KI das menschliche Fachwissen, indem sie Ärzten objektives, strukturiertes und datengestütztes Feedback liefert, das in klinische Entscheidungen und Behandlungen einfließt.

Bei all diesen Beispielen fallen medizinische Daten an, deren Umfang die Möglichkeiten einer manuellen Überprüfung übersteigt, die jedoch durch KI-basierte Systeme interpretierbar und verwertbar gemacht werden können. In Ländern mit niedrigem und mittlerem Einkommen kann dies dazu beitragen, Infrastruktur- und Personalengpässe zu beheben und den Zugang zu hochwertiger Versorgung dort zu verbessern, wo sie am dringendsten benötigt wird. Gleichzeitig können ähnliche Instrumente selbst in Gesundheitssystemen mit hohem Einkommen die Effizienz steigern, die Arbeitsbelastung der Ärzte verringern, die Qualitätsbewertung standardisieren und die kontinuierliche Verbesserung sowohl der diagnostischen als auch der chirurgischen Praxis unterstützen. Auf diese Weise tragen solche Systeme zu einer gerechteren, effizienteren und präziseren Gesundheitsversorgung bei und haben das Potenzial, die Ergebnisse für Patienten auf der ganzen Welt zu verbessern.

Thomas Schultz, Maximilian Wintergerst, Simon Müller,

19. März 2026