{"id":4107,"date":"2021-04-21T05:58:30","date_gmt":"2021-04-21T05:58:30","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/tiefe-neuronale-netze\/"},"modified":"2025-11-12T14:52:04","modified_gmt":"2025-11-12T14:52:04","slug":"tiefe-neuronale-netze","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/tiefe-neuronale-netze\/","title":{"rendered":"Deep Learning: Wie funktionieren tiefe neuronale Netze?"},"content":{"rendered":"\n<p>Viele Computerprogramme verwenden mittlerweile Maschinelles Lernen und K\u00fcnstliche Intelligenz und werden in Produkten und Prozessen des Alltags angewendet. Sie verstehen gesprochene Sprache, k\u00f6nnen Texte interpretieren, erkennen Objekte in Fotos oder unterst\u00fctzen uns in pers\u00f6nlichen Assistenten. Im Gegensatz zu fr\u00fcheren technischen Systemen werden ihre Reaktionen nicht im Einzelnen programmiert, sondern sie lernen aus Beispielen.<\/p>\n\n\n\n<p>In dem Beitrag <a href=\"https:\/\/lamarr-institute.org\/de\/wie-maschinen-lernen\/\">&#8222;Wie lernen Maschinen?\u201c<\/a> wurde bereits dargestellt, wie man ein Computerprogramm an Daten anpassen kann, so dass es in einer bestimmten Weise reagiert. Es wird ein sogenanntes <strong>Modell<\/strong> formuliert, welches eine Eingabe erh\u00e4lt und eine Ausgabe berechnet. Je nach Fragestellung kann die Eingabe zum Beispiel ein Bild aus Pixeln, eine Tonfolge in einer Sprachnachricht oder ein Text aus Worten und Buchstaben sein. Diese Eingabe wird umgewandelt in eine Reihe von Zahlen (als ein Vektor repr\u00e4sentiert), die dann von dem Modell verarbeitet wird. Die Ausgabe eines Modells ist wieder ein Vektor von Zahlen, der das gew\u00fcnschte Ergebnis beschreibt. Dies kann zum Beispiel das erkannte Objekt im Bild, der Text der Sprachnachricht, oder die \u00dcbersetzung eines Eingabetextes in eine andere Sprache sein. Zus\u00e4tzlich gibt es noch einen Vektor von <strong>Parametern <\/strong>des Modells, der im Detail festlegt, wie die Eingabe auf die Ausgabe abgebildet wird. In diesem Beitrag wollen wir erkl\u00e4ren, warum Deep Learning in komplexen Anwendungen oft h\u00f6here Genauigkeiten als traditionelle maschinelle Lernverfahren erreichen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Neuronale Netze lernen nach dem Vorbild der Natur<\/h2>\n\n\n\n<p>Ausgangspunkt f\u00fcr Deep Learning war die Entwicklung neuronaler Netze. In Anlehnung an die Funktionsweise der Nervenzelle eines Menschen (daher auch der Begriff \u201eNeuronale Netze\u201c) wurde schon in den f\u00fcnfziger Jahren ein erstes Modell formuliert, dessen Ein-\/Ausgabeverhalten trainierbar ist. Dabei wird eine gewichtete Summe der Eingaben berechnet, wobei die Gewichte der Verbindungst\u00e4rke zwischen Nervenzellen entsprechen. Interpretiert man einen Ausgabewert gr\u00f6\u00dfer als Null als Klasse A und einen Wert kleiner als Null als Klasse B, so kann man mit Hilfe dieses Modells Klassifikationsprobleme l\u00f6sen. Grundlage f\u00fcr die Vorhersage ist eine Menge von Trainingsbeispielen, welche jeweils aus einem Eingabevektor und einer zugeh\u00f6rigen Ausgabe bestehen. Dabei werden die Gewichte innerhalb des Neuronalen Netzes durch Optimierungsverfahren so ver\u00e4ndert, dass sie die Klassen f\u00fcr alle Trainingsbeispiele m\u00f6glichst gut prognostizieren. Dieses Modell eines einfachen <strong>neuronalen Netzes mit einer Ebene<\/strong> wird <strong>Perzeptron<\/strong> genannt (Mehr in der <a href=\"https:\/\/doi.apa.org\/doiLanding?doi=10.1037%2Fh0042519\" target=\"_blank\" rel=\"noopener\">Studie<\/a> \u00fcber Perzeptronen).<\/p>\n\n\n\n<p>Hier betrachten wir ein einfaches Anwendungsbeispiel mit nur zwei Eingaben.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Ein-Ebenen-Perzeptron-1-1024x362.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24665\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Lamarr Institute<\/figcaption><\/figure>\n\n\n\n<p>In der Grafik auf der linken Seite der Abbildung ist den zwei Eingabemerkmale x<sub>1<\/sub> und x<sub>2<\/sub> jeweils eine Klasse A oder B zugeordnet. Wie zu sehen, erzeugt ein Perzeptron immer eine gerade Trennlinie (allgemein eine Hyperebene) im Eingaberaum. Das trainierte Perzeptron kann die beiden Klassen sehr gut trennen, so dass nur zwei Beispiele (magenta) falsch zugeordnet werden. Auf der rechten Seite sind beim \u201eXOR-Problem\u201c die Trainingsbeispiele der beiden Klassen \u201e\u00fcber Kreuz\u201c angeordnet. Hier kann das einfache Perzeptron keine gute Trennlinie finden.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Das Zweiebenen-Perzeptron l\u00f6st das XOR-Problem<\/h2>\n\n\n\n<p>Es dauerte mehr als ein Jahrzehnt, bis f\u00fcr das XOR-Problem eine L\u00f6sung pr\u00e4sentiert wurde. Daf\u00fcr ist es notwendig das einfache Perzeptron zu erweitern. Zun\u00e4chst werden aus den Eingaben mehrere unterschiedlich gewichtete Summen berechnet, welche anschlie\u00dfend durch eine nichtlineare ansteigende Funktion, zum Beispiel <em>tanh<\/em>, transformiert werden. Die Ergebnisse hei\u00dfen <strong>verborgene Einheiten<\/strong> (hidden units), weil es f\u00fcr diese Variablen keine Beobachtungswerte in den Trainingsdaten gibt. Sie dienen als Eingabe f\u00fcr ein weiteres Perzeptron, dessen Ausgabe wieder die Klasse prognostiziert.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/2-ebenen-1.gif\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24667\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Lamarr Institute<\/figcaption><\/figure>\n\n\n\n<p>In der Abbildung ist die Gr\u00f6\u00dfe der Gewichte durch die unterschiedliche Dicke der Linien symbolisiert. Entscheidend ist die Verwendung der nichtlinearen Funktion, auch <strong>Aktivierungsfunktion<\/strong> genannt. Dadurch ist das entstehende Modell in der Lage, die gekr\u00fcmmten Trennfl\u00e4chen f\u00fcr unser XOR-Problem zu prognostizieren, welche ein einfaches Perzeptron nicht darstellen konnte.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Zweiebenen-tiefes-Neuronales-Netzpng-1-1024x680.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24669\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Lamarr Institute<\/figcaption><\/figure>\n\n\n\n<p>Wie die vorstehende Abbildung zeigt, liefert das erweiterte Modell eine nahezu perfekte L\u00f6sung des Klassifikationsproblems. Es wird <strong>Zweiebenen-Perzeptron<\/strong> genannt. Seine Gewichte werden mit Hilfe der Trainingsdaten durch das <a href=\"https:\/\/machinelearning-blog.de\/grundlagen\/optimierung-im-maschinellen-lernen\/\" target=\"_blank\" rel=\"noopener\">Gradientenabstiegsverfahren<\/a> bestimmt. Bemerkenswert ist, dass die verborgenen Einheiten eine <strong>neue Repr\u00e4sentation<\/strong> der Eingaben sind, die durch das Optimierungsverfahren so konstruiert werden, dass das Klassifikationsproblem leichter l\u00f6sbar ist. Im Gegensatz zu den meisten klassischen Verfahren des Maschinellen Lernens ist das Zweiebenen-Perzeptron also in der Lage, intern geeignete Merkmale f\u00fcr die Probleml\u00f6sung zu konstruieren und genauere Klassifikationen und Vorhersagen zu treffen.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Erkennung_von-Ziffern_DNN-1-1024x223.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24671\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Lamarr Institute<\/figcaption><\/figure>\n\n\n\n<p>Eine fr\u00fcher viel diskutierte Aufgabe war die Erkennung von geschriebenen Ziffern, beispielsweise Postleitzahlen. Die vorstehende Abbildung zeigt Beispielbilder aus den Trainingsdaten. Ein einfaches Perzeptron hat auf diesen Daten eine Genauigkeit von 92%. Verwendet man hingegen ein Zweiebenen-Perzeptron, so kann man eine Genauigkeit von mehr als 98% erreichen, das hei\u00dft von 100 Zifferbildern werden mehr als 98 korrekt zugeordnet. Dies zeigt, dass die zus\u00e4tzliche Ebene den Zuordnungsfehler auf weniger als ein Viertel reduzieren kann.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Deep Learning erm\u00f6glicht das Abbilden komplexer Zusammenh\u00e4nge<\/h2>\n\n\n\n<p>Es konnte gezeigt werden, dass Zweiebenen-Perzeptronen beliebige stetige Zusammenh\u00e4nge zwischen den Ein- und Ausgaben rekonstruieren k\u00f6nnen, wenn nur die Anzahl der verborgenen Einheiten gro\u00df genug ist (Mehr zu der <a href=\"https:\/\/www.sciencedirect.com\/science\/article\/pii\/0893608089900208\" target=\"_blank\" rel=\"noreferrer noopener\">Studie<\/a>). Allerdings ist die erforderliche Anzahl der verborgenen Einheiten oft extrem hoch und es gibt zu wenige Daten, um die Parameter zuverl\u00e4ssig zu bestimmen. Als Alternative kann man das Modell durch zus\u00e4tzliche Ebenen mit weiteren Nichtlinearit\u00e4ten erweitern. Man spricht dann von einem <strong>Tiefen Neuronalen Netz<\/strong>, welches im Forschungsbereich <strong>Deep Learning<\/strong> untersucht wird. Dabei ist Deep Learning ein Teilbereich des Maschinellen Lernens und beschreibt \u201emehrschichtiges Lernen\u201c, das hei\u00dft es werden mehrere versteckte Ebenen im neuronalen Netz genutzt, um gro\u00dfe Datens\u00e4tze zu analysieren. Ein derartiges Netz mit drei Ebenen ist in der folgenden Abbildung gezeigt. Es kann mehrere Ausgaben besitzen, welche durch zus\u00e4tzliche Aktivierungsfunktionen transformiert werden k\u00f6nnen, zum Beispiel in einen Vektor von Wahrscheinlichkeiten. Es konnte gezeigt werden, dass jede zus\u00e4tzliche Schicht eines tiefen neuronalen Netzes eine wesentlich gr\u00f6\u00dfere Menge von Funktionen darstellen kann als ein neuronales Netz mit weniger Schichten, aber mit der gleichen Anzahl von Parametern (Mehr zu der <a href=\"https:\/\/www.sciencedirect.com\/science\/article\/abs\/pii\/S0893608019301078\" target=\"_blank\" rel=\"noreferrer noopener\">Studie<\/a>). Damit verspricht ein tiefes neuronales Netz die effiziente Rekonstruktion sehr komplexer Zusammenh\u00e4nge zwischen Ein- und Ausgaben, beispielsweise zwischen den Pixeln eines Fotos und der zugeh\u00f6rigen Bildbeschreibung durch einen Satz.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/3-ebenen-1.gif\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24673\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Lamarr Institute<\/figcaption><\/figure>\n\n\n\n<p>Allerdings ist die Optimierung der Parameter in tiefen neuronalen Netzen \u00e4u\u00dferst schwierig, weil die Abh\u00e4ngigkeit der Ausgaben von den Parametern der ersten Schichten zuverl\u00e4ssig rekonstruiert werden muss. Dies konnte erst gelingen, nachdem verschiedene Techniken entwickelt wurden. Dazu geh\u00f6ren Regularisierungsverfahren, wie Dropout und die Normalisierung der Werte der verborgenen Einheiten. Diese sorgen daf\u00fcr, dass das Netzwerk zuf\u00e4llige Fluktuationen in den Daten ignoriert und sich auf systematische Zusammenh\u00e4nge konzentriert. Zudem hat es sich gezeigt, dass Bypass-Verbindungen, welche die einzelnen Ebenen gesteuert \u00fcberbr\u00fccken, \u00fcberhaupt erst das Training sehr tiefer Neuronaler Netze erlauben. Die <a href=\"https:\/\/www.springer.com\/de\/book\/9783658302108\" target=\"_blank\" rel=\"noopener\">Monografie<\/a> \u201eK\u00fcnstliche Intelligenz &#8212; Was steckt hinter der Technologie der Zukunft?\u201c gibt eine detaillierte Darstellung tiefer neuronaler Netze und beschreibt die erforderlichen Optimierungsverfahren.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Die vier S\u00e4ulen tiefer neuronaler Netze<\/h2>\n\n\n\n<p>Tiefe neuronale Netze zur Verarbeitung nat\u00fcrlicher Sprache, zur Erkennung von Objekten in Bildern, und zur Spracherkennung haben eine spezialisierte Architektur mit Schichten, die auf die jeweiligen Anwendungen zugeschnitten sind. Sie erreichen heute oft Genauigkeiten bei der Erkennung von Objekten und Abl\u00e4ufen, welche genauso gut oder h\u00f6her sind als die von Menschen. Sie haben meist Dutzende bis Hunderte von Schichten und bilden den Kern des Forschungsbereiches Deep Learning. Insgesamt beruht ihr Erfolg auf vier S\u00e4ulen:<\/p>\n\n\n\n<ol class=\"wp-block-list\">\n<li>der Verf\u00fcgbarkeit von leistungsf\u00e4higen parallelen Prozessoren zur Durchf\u00fchrung des Trainings,<\/li>\n\n\n\n<li>der Sammlung und Annotation umfangreicher Trainingsdaten,<\/li>\n\n\n\n<li>der Entwicklung leistungsf\u00e4higer Regularisierungs- und Optimierungsverfahren und<\/li>\n\n\n\n<li>der Verf\u00fcgbarkeit von Toolkits, mit denen tiefe neuronale Netze auf einfache Weise definiert und deren Gradienten automatisch ausgerechnet werden.<\/li>\n<\/ol>\n","protected":false},"excerpt":{"rendered":"<p>Deep Learning nutzt tiefe neuronale Netze, um Bilder zu erkennen, Texte zu verstehen und Entscheidungen genauer zu treffen. Zur Analyse gro\u00dfer Datens\u00e4tze verwendet das \u201emehrschichtige Lernen\u201c mehrere versteckte Ebenen im Netz.<\/p>\n","protected":false},"author":9,"featured_media":4118,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,390],"blog-tag":[1480,1558,1560,1612],"class_list":["post-4107","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-grundlagen","blog-tag-deep-learning-de","blog-tag-neuronale-netze","blog-tag-optimierung","blog-tag-tiefe-neuronale-netze"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4107","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4107\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4118"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4107"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4107"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4107"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}