Gaia-X: Die Cloud für KI-Entwicklung?

00 Blog Sachweh GaiaX - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
© ML2R

In den letzten Jahren hat der Bereich rund um Künstliche Intelligenz (KI) einen starken Aufschwung erfahren. Nicht nur in der Forschung, sondern auch in der Praxis werden vermehrt Anwendungen eingesetzt, um beispielsweise Routenplanung zu optimieren, oder Verspätungszeiten auf Routen zu berechnen. Ein Beispiel dafür ist Uber, ein Online-Vermittlungsdienst zur Personenbeförderung. Uber stellte 2019 ein tiefes neuronales Netz unter dem Namen DeepETA vor, welches die Verspätung zu zuvor spezifizierten Treffpunkten vorhersagt. Um solche Modelle zu trainieren, werden große Datenmengen benötigt. Für viele kleine und mittelständische Unternehmen stellt dies eine Herausforderung dar, die oftmals verhindert, dass diese Unternehmen den Einsatz von datengetriebenen Algorithmen realisieren können. An dieser Stelle soll mit Gaia-X ein Weg geschaffen werden, wie die Nutzung und Anwendung von KI auch für kleine Unternehmen einfacher realisierbar ist.

Gaia-X

Das Gaia-X Projekt wurde Ende 2019 innerhalb der Europäischen Union initiiert und soll für das nächste Level der Dateninfrastruktur in Europa stehen. Dazu wird eine sogenannte europäische Cloud aufgebaut werden. Die Cloud fungiert hierbei als dezentraler, standardisierter Datenraum, in den sich jedes Unternehmen einbinden kann. Über die standardisierten Schnittstellen soll es möglich sein, als Unternehmen gesammelte Daten anzubieten, oder auch über vorab definierte Richtlinien zu kaufen. Welche Richtlinien für eine Datenbereitstellung benötigt werden, kann der Anbieter selbst festlegen. Es ist dann in der Hand des Anwenders (Käufers), die benötigten Richtlinien zu besitzen. Exemplarisch kann eine Richtlinie sein, dass der Anwender monatlich 10 Euro zahlt, oder alternativ einer öffentlichen Organisation, wie einer Hochschule, zugeordnet ist. Darüber hinaus kann die Richtlinie um weitere Aspekte erweitert werden – zum Beispiel, dass die Daten nur mit limitierter Abrufanzahl bereitgestellt werden etc. Generell ist Gaia-X in zwei Teilbereiche aufgeteilt:

Abbildung 1 Architekturueberblick - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
© BMWI / GAIA-X: Technical Architecture (data-infrastructure.eu)
Abbildung 1: Gaia-X Architekturüberblick

Auf der einen Seite repräsentiert Gaia-X das Infrastructure Ecosystem, welches Basisdienste repräsentiert, die die Realisierung von Daten-Konnektoren und weiteren Diensten erst ermöglicht. Daten-Konnektoren sind laufende Dienste, welche den Austausch zwischen Datenpools und Diensten innerhalb von Gaia-X ermöglichen. Auf der anderen Seite ist Gaia-X auch ein Data Ecosystem, welches den oben beschriebenen Datenaustausch (über die genannten Daten-Konnektoren) und die Vernetzung der verschiedenen heterogenen Dienste ermöglicht. Darüber hinaus werden essentielle für Gaia-X benötigte Dienste zentralisiert betrieben. Darunter fällt unter anderem ein Service, der Identity & Trust umsetzt und für die Überprüfung der ausgehandelten Richtlinien (Zertifikate) verantwortlich ist. Genauso wird es einen zentralen Service geben, welcher einen Überblick über alle möglichen zu verwendenden Dienste in Gaia-X gibt. Dieser zentrale Service wird ähnlich zu einem App Store aussehen und ist in der Abbildung als Federated Catalogue bezeichnet. Essentielle Dienste, die zentral bereitgestellt werden, sind in der Abbildung hellgrün hinterlegt. Nähere Informationen zu der genauen Architektur von Gaia-X und der Umsetzung der verschiedenen Dienste sind unter den Publikationen der Gaia-X Vereinigung zu finden.

Gaia-X als Anwendungsplattform

Konkret soll Gaia-X zwei Kernfunktionen umsetzen:

Abbildung 2 Exemplarischer Datenaustausch 1 - Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)
© Timon Sachweh / TU Dortmund
Abbildung 2: Exemplarischer Datenaustausch zwischen einem Datenanbieter und -konsumenten.

Standardisierter Datenaustausch

Die angestrebte Funktionalität von Gaia-X liegt im standardisierten und möglichst einfach gehaltenen Datenaustausch. Dazu sollen in Gaia-X sogenannte Konnektoren (Englisch: Connectors) die Anbindung an die dezentrale Cloud realisieren. Insofern stellen die Konnektoren das Bindeglied zwischen den Federation Services (zentralen Gaia-X Diensten) und anderen Konnektoren dar. Bezüglich der Konnektoren wurden bereits verschiedene Vorarbeiten geleistet. So ist im Industrial Data Space bereits ein Daten-Konnektor entwickelt worden, welcher den standardisierten Datenaustausch realisiert. Allerdings besitzt der Industrial Data Space nicht alle Funktionen, die von der Gaia-X Vereinigung vorgeschrieben sind. Deshalb werden derzeit sogenannte Eclipse Data Connectors entwickelt, welche die meisten Kriterien für einen Konnektor in der Gaia-X Cloud abdecken. Weiterhin gibt es Vorarbeiten in Form eines Ocean Protocols. Dieses Protokoll kann ebenfalls als Konnektoren dienen und baut auf dem Web3 Standard auf, der auch in den Veröffentlichungen der Gaia-X Vereinigung zu finden ist.

Die generelle Funktionsweise eines Datenaustausches wird exemplarisch anhand von Abbildung 2 dargestellt. Links ist der Datenkonsument und rechts der Datenanbieter dargestellt. Jeder Teilnehmende an der Gaia-X Cloud benötigt einen Konnektor, der die Kommunikation in der Cloud übernimmt. Aus diesem Grund haben beide Parteien einen eigenen Konnektor. Um es dem Konsumenten zu ermöglichen, die Daten überhaupt zu erhalten, muss der Anbieter diese zunächst in den Federation Catalogue einstellen. Dazu wird eine „Beschreibung“ der Daten an den Konnektor übermittelt, der wiederum diese Beschreibung an den Federation Catalogue weitergibt. Als nächstes erhält der in der Abbildung als Prediction Service bezeichnete Dienst über seinen eigenen Konnektor den angefragten Daten-Service. Für einen einfachen Datenaustausch reicht es im Anschluss daran aus, die Bedingungen für den angefragten Daten-Service zu erfüllen und eine Datenanfrage (4) zu stellen. Der Datenanbieter überprüft dann über seinen eigenen Konnektor, ob die mitgeschickte Authentifizierung gültig ist (5) und gibt abhängig davon die Daten frei.

Mehrwertservices

Als zweiten Fokus setzt die Gaia-X Cloud zusätzlich auf Mehrwertservices. Unter einem Mehrwertservice ist ein Dienst zu verstehen, welcher in beliebiger Weise einen Mehrwert für Endanwender oder Unternehmen liefert. Das kann zum Beispiel ein übersichtliches Portal zur aktuellen Wetterlage sein, oder eine Vorhersage für die Verspätungszeit von Taxis oder Zügen.

An dieser Stelle kommt der große Vorteil des einfachen Datenaustausches innerhalb von Gaia-X zum Tragen. Denn durch diesen wird die Entwicklung solcher Mehrwertservices signifikant vereinfacht. Wo früher zunächst viele Daten von Unternehmen gesammelt und mit anderen Datenquellen vereinheitlicht werden mussten, ist es mittels der Gaia-X Cloud möglich, relativ einfach mehrere Datenquellen zu integrieren. Gerade für die Anwendung von KI-Algorithmen bietet das einen großen Vorteil, da diese meist große Datenmengen für das Training benötigen. Denkbar in einem solchen Szenario ist auch, dass die Trainingsdaten nur für die Dauer des Trainings gemietet werden, sodass die Kosten für die Daten nicht zu hoch ausfallen.

Weiterhin bietet die Gaia-X Cloud den großen Vorteil, dass sie im Hinblick auf den Datenschutz, sowie mit vollständigem Identitätsmanagement konstruiert wird. Insbesondere die aktuellen Fragestellungen, wie man mit dem Datenschutz umgeht, wie das Recht auf Vergessen und das Recht auf Datenauskunft umgesetzt werden kann, oder wie die Datensicherheit bei der Übertragung gewährleistet werden kann, werden durch Gaia-X adressiert (weitere Infos zu Datenschutz und KI sind hier zu finden).

Die entwickelten Services können wieder in die Gaia-X Cloud als Service-Schnittstelle oder Datenanbieter eingebunden werden. Auch hier ist es eventuell sinnvoll die Schnittstelle über eine Mietrichtlinie abzudecken, sodass nach Bedarf/Nutzung der Service-Schnittstelle automatisch abgerechnet wird.

Ein weiterer Vorteil von Gaia-X für KI-Algorithmen ist die dezentrale heterogene Ausführung der Services. So muss nicht darauf geachtet werden, dass der entwickelte Algorithmus spezifisch in der Amazon Webservices (AWS) Cloud effizient läuft. Stattdessen kann man den Algorithmus auf der eigenen Hardware ausführen lassen und weiterhin über die Konnektoren in Gaia-X einbetten. Sofern gewünscht, ist natürlich auch eine Ausführung in einer der gängigen Cloud-Lösungen, wie AWS oder Google, möglich. Man kann sich quasi die Ausführungsumgebung des Services selbst aussuchen und ist nicht durch andere Unternehmen beschränkt.

Durch die Eigenschaften von Gaia-X ist die Cloud prädestiniert für die Entwicklung von Mehrwertservices. Insbesondere die Einfachheit, sowie die Standardisierung bezüglich der Richtlinien zum Austausch von Daten und Services bieten eine einfache Möglichkeit, Dienste anzubieten und trotzdem abzusichern.

Gaia-X für KI?

Es gilt festzuhalten: Mit Gaia-X wird eine europäische Cloud geschaffen mit dem Ziel, einen souveränen Umgang mit Daten und die Einhaltung der Privatssphäre zu implementieren. Mit dieser Kern-Eigenschaft und dem einfach zu realisierenden Datenaustausch ermöglicht die Cloud ganz neue Wertschöpfungs-Konzepte. Insbesondere der Bereich der KI-Entwicklung kann dadurch einen hohen Aufschwung erfahren, da aktuell oftmals die Einhaltung der Datenschutz-Grundverordnung (DSGVO) beim produktiven Einsatz von KI-Algorithmen ein Problem darstellt.

Das Konzept bietet verschiedenste Vor- und Nachteile, die in der nachfolgenden Tabelle übersichtlich dargestellt sind:

       VorteileNachteile
Dezentralisierung der Services: Weitestgehend kein „Single Point of Failure“.Jeder Partner ist für seine Services vollständig verantwortlich: Wenn ein Dienst nicht läuft, muss sich das Unternehmen darum kümmern, diesen wieder zu starten.
Dynamische Erweiterung der Funktionalitäten durch Hinzufügen von Mehrwertservices (jeder KI-Algorithmus kann separate Rechte erhalten und auf unterschiedliche Datenquellen zugreifen).Der initiale Aufwand, die Daten über Konnektoren bereitzustellen, ist höher, als wenn man sie im bereits existierenden Format bereitstellt.
Standardisierung der Schnittstellen (insbesondere der Datenzugriff wird einfacher handhabbar, indem die Schnittstelle auf den Datenzugriff standardisiert wird).Es muss ein Verständnis aufgebaut werden, wie die Konnektoren konfiguriert werden müssen, um mit den Federation Services kommunizieren zu können.
Einfache Rechte-Vergabe durch Identity & Trust Federation Service.
Heterogene Ausführungs-umgebungen: beliebige Deployment Optionen denkbar. Insbesondere für KI-Algorithmen, bei denen die Hardware-Anforderungen sehr unterschiedlich sind, sehr hilfreich.
Integration von Datenschutz (Recht auf Vergessen/Datenauskunft), Identitätsmanagement und Absicherung der Übertragung bereits durch die Architektur der Gaia-X Cloud.

Zusammengefasst lässt sich also sagen, dass sich die aktuell in der Entwicklung befindende Gaia-X Cloud hervorragend für datengetriebene Anwendungen eignet. Darunter fallen insbesondere KI-Algorithmen. Auch wenn es ein paar Nachteile gibt, wie zum Beispiel der zusätzliche Aufwand, die Daten über die standardisierte Schnittstelle bereitzustellen, so überwiegen letzten Endes deutlich die Vorteile, die die Cloud für KI-Anwendungen bietet.

Weitere Informationen

Gaia-X – Wegbereiter einer digitalen und wettbewerbsfähigen Zukunft der EU? Jana Bernhardt, Marina Steininger, et al. ifo Schnelldienst, 74(05):66–71, 2021, Link.

DeepETA: A Spatial-Temporal Sequential Neural Network Model for Estimating Time of Arrival in Package Delivery System. Fan Wu and Lixia Wu. In Proceedings of the AAAI Conference on Artificial Intelligence, volume 33, pages 774–781, 2019, Link.

Timon Sachweh

Timon Sachweh ist Wissenschaftlicher Mitarbeiter am Lehrstuhl für Künstliche Intelligenz der Technischen Universität Dortmund. Seit Anfang des Jahres 2022 arbeitet er im Rahmen des GAIAX4ROMS Forschungsprojektes an der Entwicklung von KI-Algorithmen im Kontext der Gaia-X Cloud. Der Fokus liegt auf der effizienten Vorhersage von Verspätungen, sowie der Routenplanung in Logistik-Szenarien.

Weitere Blogartikel