{"id":4126,"date":"2021-05-19T05:00:12","date_gmt":"2021-05-19T05:00:12","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/daten-kuenstliche-intelligenz\/"},"modified":"2025-11-12T14:52:04","modified_gmt":"2025-11-12T14:52:04","slug":"daten-kuenstliche-intelligenz","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/daten-kuenstliche-intelligenz\/","title":{"rendered":"Wie viele Daten braucht K\u00fcnstliche Intelligenz?"},"content":{"rendered":"\n<p>Methoden aus den Bereichen K\u00fcnstliche Intelligenz und Maschinelles Lernen stehen allgemein im Ruf, viele Daten zu ben\u00f6tigen. Aber was bedeutet das konkret? In Schulungen oder im Gespr\u00e4ch mit Anwender*innen begegnen uns h\u00e4ufig genau diese Fragen: Was sind \u201eviele\u201c Daten? Wie viele Daten brauche ich mindestens f\u00fcr ein gutes Modell? Welche Faktoren haben Einfluss auf die Menge der Daten? In diesem Beitrag m\u00f6chten wir dieses Thema diskutieren. Er soll Hilfestellung geben, die eigenen Herausforderungen einzusch\u00e4tzen und Einblick geben, wie ein Data Scientist auf die verschiedenen Anwendungsprobleme schaut.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Warum ben\u00f6tigt ein Modell des Maschinellen Lernens so viele Daten?<\/span><\/h2>\n\n\n\n<p>Zuallererst wollen wir erkl\u00e4ren, warum ein Modell des Maschinellen Lernens \u00fcberhaupt viele Daten zum Training ben\u00f6tigt. Ein Grund liegt im sogenannten \u201eCurse of Dimensionality\u201c (Fluch der Dimensionalit\u00e4t). Der &#8222;Curse of Dimensionality\u201c beschreibt das exponentielle Wachstum des Raums und damit der Daten, die man ben\u00f6tigt, um ihn zu f\u00fcllen, in Abh\u00e4ngigkeit der Anzahl an Eingangsgr\u00f6\u00dfen.<\/p>\n\n\n\n<p>Ein Beispiel hierf\u00fcr ist der Kauf einer neuen Kaffeemaschine mit einer Unmenge von bin\u00e4ren Schaltern, bei der die Anleitung verloren gegangen ist. Wie kann man herausfinden, bei welchen Schalterpositionen der Kaffee schmeckt und welche Einstellungen vermieden werden sollten? Bei nur einem Schalter kann man es einfach ausprobieren \u2013 hierf\u00fcr m\u00fcsste man zwei Tassen Kaffee trinken und diese vergleichen. Bei zwei Schaltern werden es f\u00fcr alle An-\/Aus-Kombinationen vier Tassen, bei drei Schaltern acht Tassen. Die Anzahl der Versuche w\u00e4chst somit mit 2<sup>{Anzahl der Schalter}<\/sup>. Bei 20 Schaltern sind dies schon 1.048.576 Tassen Kaffee. Wenn nun alle Schalter nicht nur bin\u00e4r sind, sondern (N) Einstellungen haben, ergibt sich ein Zusammenhang von (N<sup>{Anzahl der Schalter}<\/sup>). Das bedeutet f\u00fcr f\u00fcnf Einstellungen mit f\u00fcnf Schaltern ben\u00f6tigt man 3.125 Versuche, um herauszufinden, welche Einstellung die richtige ist.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/1_Curse_of_dimsenionality_new2-1-1-1024x414.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24704\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R <br>Eine Abbildung des Curse of Dimensionality. F\u00fcr eine verschiedene Anzahl der Dimensionen d und der Diskretisierungen p wird die Anzahl der ben\u00f6tigten Datenpunkte N gezeigt.<\/figcaption><\/figure>\n\n\n\n<p>Wenn wir jetzt ein ML-Modell f\u00fcr den Kaffeegeschmack in Abh\u00e4ngigkeit der Schalter entwickeln wollen, ben\u00f6tigen wir die Versuchsdaten Schaltereinstellung &#8211;> Kaffeegeschmack. Wenn das Modell sehr einfach, aber dennoch sehr exakt sein soll, w\u00fcrden wir eines bauen, das in den Versuchsdaten nachschaut, welcher Geschmack sich aus der aktuellen Schaltereinstellung ergibt. Die St\u00e4rke von Maschinellem Lernen ist jedoch die Generalisierung, das hei\u00dft das Modell kann auf der Basis von gelernten Beispielen R\u00fcckschl\u00fcsse auf neue Zust\u00e4nde, die nicht Teil des bisher Gelernten sind, ziehen.<\/p>\n\n\n\n<p>Dies w\u00fcrde in unserem Fall bedeuten, dass wir nur einen Teil der Daten ben\u00f6tigen, und das Modell schlie\u00dft aus ihnen, wie der Kaffee f\u00fcr eine andere Schalterkombination schmeckt. Hier bleibt dann die Frage: Wie viele Datenpunkte brauche ich dann? Um beim Beispiel der 5 Schalter (= 5 Dimensionen) mit 5 Einstellungen (= 5 Diskretisierungen) zu bleiben: Wie viele meiner 3.125 Punkte werden ben\u00f6tigt, um ein gutes Modell f\u00fcr den Kaffeegeschmack in Abh\u00e4ngigkeit der Schalterstellung zu erzeugen?<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Wie viel Information ben\u00f6tigt ein ML-Modell?<\/h2>\n\n\n\n<p>Um ein Gef\u00fchl zu entwickeln, wie viele Daten ein Modell (zum Beispiel der Geschmack des Kaffees in Abh\u00e4ngigkeit der Schalterpositionen) ben\u00f6tigt, schauen wir zun\u00e4chst auf ein Beispiel mit nur einer Dimension.<\/p>\n\n\n\n<p>Wenn wir w\u00fcssten, wie der Prozess, den wir modellieren m\u00f6chten (die \u201eGround Truth\u201c), sich verh\u00e4lt, ist das Vorhaben einfacher:<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/1_B_Zusammenhaenge-1-1024x285.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24707\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R <br>Zwei Extremverhalten f\u00fcr das Verhalten der Ground Truth und die notwendige Abtastung. Links eine sehr einfache Ground Truth: Es reichen zwei Datenpunkte aus, um sie zu sch\u00e4tzen. Rechts eine sehr komplizierte Ground Truth: Es werden sehr viele Datenpunkte ben\u00f6tigt, um nur einen Teil ihres Verhaltens abzubilden.<\/figcaption><\/figure>\n\n\n\n<p>Im Bild sind zwei Extrembeispiele dargestellt, wie sich ein Prozess abh\u00e4ngig von einem Faktor verhalten k\u00f6nnte. F\u00fcr einen linearen Zusammenhang (linkes Bild) m\u00fcssten wir zweimal, f\u00fcr einen sehr unebenen Zusammenhang (rechtes Bild) sehr oft messen. Daraus l\u00e4sst sich schlussfolgern: Je weniger glatt das Prozessverhalten ist, desto mehr Daten werden ben\u00f6tigt. In der Signalverarbeitung wurde dies im <a href=\"https:\/\/de.wikipedia.org\/wiki\/Nyquist-Shannon-Abtasttheorem\" target=\"_blank\" rel=\"noopener\">Nyquist-Shannon-Abtasttheorem<\/a> formuliert. Es besagt, dass ein kontinuierliches Signal (unser Prozess), das eine maximale Frequenz (f_{max}) hat, mit einer Frequenz von gr\u00f6\u00dfer (2 f_{max}) abgetastet werden muss, um es exakt rekonstruieren zu k\u00f6nnen. Und diese Rekonstruktion des Signals beziehungsweise Prozesses ist das Ziel des ML-Modells. Es soll aus den Daten f\u00fcr die Schaltereinstellung den Geschmack des Kaffees vorhersagen k\u00f6nnen. Wenn wir jetzt nicht nur einen ein- sondern mehrdimensionalen Zusammenhang lernen wollten, ben\u00f6tigen wir entsprechend des Curse of Dimensionality exponentiell mehr Daten. Im einfachsten Fall wird die Anzahl der Datenpunkte exponentiell mit der Abtastfrequenz wachsen, also (N = Punktzahl nach Abtastfrequenz^{Dimensionen}).<\/p>\n\n\n\n<p>Tats\u00e4chlich ist die Abtastfrequenz in der Realit\u00e4t unbekannt und es werden selten alle Annahmen, die die Grundlage f\u00fcr das Theorem bilden, erf\u00fcllt. Jedoch gibt das Theorem eine wissenschaftliche Grundlage f\u00fcr das Bauchgef\u00fchl: Wo im Prozess sehr viel passiert, werden auch viele Daten ben\u00f6tigt. Wenn also der Kaffeegeschmack f\u00fcr Schalter A sehr variiert und f\u00fcr die anderen vier Schalter linear ist (egal, wie A steht), werden f\u00fcr die Dimension A sehr viele Daten und f\u00fcr die anderen Dimensionen nur wenig Daten ben\u00f6tigt. In Punkten ausgedr\u00fcckt, w\u00e4ren wir hier bei (2^4 cdot 5^1 = 320), statt den obigen 3.125 Punkten.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Welche Rolle spielt der Modelltyp?<\/h2>\n\n\n\n<p>Nun haben wir \u00fcber die Daten und den Prozess gesprochen \u2013 aber was ist mit dem Unterschied zwischen Neuronalen Netzen, die eher mehr Daten brauchen, zu einfachen linearen Modellen, die weniger Daten ben\u00f6tigen?<\/p>\n\n\n\n<p>Die Antwort liegt darin, welche Prozesse die Modelle abbilden k\u00f6nnen. Ein lineares Modell wird, egal, wie viele Daten zur Verf\u00fcgung stehen, immer nur einen linearen Zusammenhang ausdr\u00fccken. Mit einer steigenden Anzahl an Daten werden sich seine Parameter (also seine Steigung und sein Offset &#8211; der Wert, den das Modell f\u00fcr einen Input von 0 annimmt) nur noch wenig \u00e4ndern. Es wird also eine begrenzte Anzahl Daten ben\u00f6tigt. Ein Neuronales Netz ist im Gegensatz dazu ein universaler Approximator. Es kann sehr komplexe Zusammenh\u00e4nge beschreiben und mit einer steigenden Anzahl an Daten werden sich seine Parameter immer wieder \u00e4ndern. Aber wenn ein Neuronales Netz nur sehr wenige Datenpunkte sieht, wird es auch nur einen einfachen, unter Umst\u00e4nden linearen Zusammenhang finden.<\/p>\n\n\n\n<p>In der Praxis bedeutet dies, dass man die Wahl des Modells von der Anzahl der <strong>verf\u00fcgbaren<\/strong> Datenpunkte abh\u00e4ngig macht. Je mehr Daten zur Verf\u00fcgung stehen, desto komplexer ist der Zusammenhang, den ich ausdr\u00fccken kann, und desto komplexer darf das Modell sein. Die Anzahl der <strong>notwendigen<\/strong> Datenpunkte bleibt davon jedoch unber\u00fchrt. Sie h\u00e4ngt allein vom Prozess ab.<\/p>\n\n\n\n<p>Ein gutes ML-Modell ben\u00f6tigt nicht unbedingt eine gro\u00dfe Menge an Daten, sondern genau die Daten, die alle Informationen \u00fcber den zu Grunde liegenden Prozess enthalten. Die Anzahl der Datenpunkte wird mit vom Curse of Dimensionality und dem zu modellierenden Prozess bestimmt \u2013 dabei ist ein Mindestma\u00df notwendig, um ein valides Modell zu bilden. Ein sehr einfacher Prozess wird nur wenige Punkte ben\u00f6tigen, ein sehr komplexer sehr viele. Um ein ausgewogenes Ma\u00df zu finden, sind Data Scientist und Dom\u00e4nenexpert*in aufeinander angewiesen. Aber eine einfache Antwort auf die Frage, wie viele Datenpunkte ben\u00f6tigt werden, gibt es, wie so h\u00e4ufig, nicht.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>K\u00fcnstliche Intelligenz braucht viele Daten. Aber wie viele Daten brauche ich mindestens f\u00fcr ein gutes Modell? Der \u201eCurse of Dimensionality\u201c und das \u201cNyquist-Shannon-Theorem\u201d geben Antworten.<\/p>\n","protected":false},"author":9,"featured_media":4131,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,390],"blog-tag":[1477,1478,1487,1558],"class_list":["post-4126","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-grundlagen","blog-tag-data-science-de","blog-tag-datensatz","blog-tag-fluch-der-dimensionalitaet","blog-tag-neuronale-netze"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4126","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4126\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4131"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4126"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4126"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4126"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}