{"id":4589,"date":"2021-06-16T05:33:42","date_gmt":"2021-06-16T05:33:42","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/generative-neuronale-modelle\/"},"modified":"2025-11-12T14:54:48","modified_gmt":"2025-11-12T14:54:48","slug":"generative-neuronale-modelle","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/generative-neuronale-modelle\/","title":{"rendered":"Generative neuronale Modelle lernen latente Wahrscheinlichkeitsverteilungen"},"content":{"rendered":"\n<p>Generative neuronale Modelle haben in Anwendungsbereichen gute Erfolge erzielt, in denen handkuratierte Daten f\u00fcr \u00fcberwachtes Lernen schwer oder nicht erh\u00e4ltlich sind. Ein h\u00e4ufig genanntes Beispiel ist hier die Erzeugung von &#8222;echt&#8220; aussehenden k\u00fcnstlichen Bildern wie zum Beispiel Portraitaufnahmen anhand einer gro\u00dfen Zahl von unklassifizierten Fotos durch Generative Adversarial Networks (GANs). Wir m\u00f6chten mit diesem Beitrag das allgemeine Prinzip hinter dem generativen Ansatz erkl\u00e4ren. Als Beispiel-Architektur w\u00e4hlen wir nicht das GAN, das an sich schon eine komplizierte interne Architektur und einen komplexen Trainingsablauf hat, sondern das einfache Autoencoder Netz, das oft als Komponente f\u00fcr GANs verwendet wird<\/p>\n\n\n\n<h2 class=\"wp-block-heading\"><span style=\"font-size: 18pt;\">Was k\u00f6nnen generative neuronale Modelle besser (als diskriminative Modelle)?<\/span><\/h2>\n\n\n\n<p>In der statistischen Modellierung wird zwischen diskriminativen und generativen Modellen unterschieden. Bei den maschinellen Lernverfahren kann man diese Unterscheidung so charakterisieren: Diskriminative Modelle definieren ihre Lernleistung ausschlie\u00dflich in Bezug auf die gew\u00e4hlten Trainingsdaten. Anders formuliert, erzeugt das fertig trainierte Modell eine Ausgabe aus einem nicht zur Trainingsmenge geh\u00f6renden Eingabedatum gegeben die Trainingsmenge. Dies beinhaltet einerseits die Aussage, dass zur Berechnung der Ausgabe ausschlie\u00dflich die aus den Trainingsdaten abgeleiteten Regularit\u00e4ten verwendet werden. Andererseits f\u00e4llt damit den Trainingsdaten die Rolle eines absoluten Standards zu. Beispiele sind Klassifikatoren wie Entscheidungsb\u00e4ume, die (einfache) Support Vector Maschine und neuronale Mehrschichtnetze, die mit Backpropagation und der Standard-Verlustfunktion (MSE = Mean Square Error) trainiert werden.<\/p>\n\n\n\n<p>Demgegen\u00fcber beschreibt ein generatives Machine Learning Modell die nicht direkt zug\u00e4ngliche bedingte Wahrscheinlichkeitsverteilung (Bayes Verteilung), die die zum Training verwendeten Eingabe-Ausgabe Paare erzeugt hat. Dieser Ansatz unterscheidet sich in seiner Sichtweise daher grunds\u00e4tzlich vom diskriminativen Ansatz: Generative Modelle versuchen eine verallgemeinerte Aussage zu treffen \u00fcber die latenten Wahrscheinlichkeitsverteilungen, die einer beobachtbaren Datenmenge zugrunde liegen. H\u00e4ufig wird dies auch so formuliert, dass das generative Modell die latente Wahrscheinlichkeitsverteilung (und die daraus resultierenden realen Beobachtungen) rekonstruiert.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Autoencoder-1-1.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24749\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R <br>Abbildung 1: Autoencoder Schema <\/figcaption><\/figure>\n\n\n\n<p>Der wesentliche Aspekt dieses Ansatzes ist die M\u00f6glichkeit, mithilfe eines trainierten Modells neue Ausgaben zu erzeugen sowie \u00fcber das Modell Aussagen \u00fcber die Ungleichgewichtung von Trainingsdaten zu erhalten. Diese recht abstrakte Charakterisierung k\u00f6nnen wir uns am Beispiel des Neuronalen Autoencoders in ihren praktischen Auswirkungen besser klarmachen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Ein diskriminatives Modell: Neuronale Autoencoder<\/h2>\n\n\n\n<p>Neuronale Autoencoder sind neuronale Netze mit einer (oder mehreren) internen Schicht(en) von Neuronen, deren Dimension kleiner ist als die Dimension der Eingabevektoren. Die Lernaufgabe besteht darin, in der Ausgabeschicht den Eingabevektor m\u00f6glichst ohne Abweichungen zu rekonstruieren. Autoencoder wurden urspr\u00fcnglich dazu entwickelt, um komprimierte, niedrig dimensionale Codierungen von Daten zu erzeugen. (Siehe Abbildung 1) Neuronale Autoencoder sind also nach unserer obigen Beschreibung diskriminative Modelle, die darauf optimiert sind, eine deterministische Abbildung zwischen Eingabe- und Ausgabedaten zu lernen. Welche \u00c4nderungen ben\u00f6tigt man nun, um aus einem Autoencoder ein generatives Modell zu erhalten?<\/p>\n\n\n\n<p>Angewendet auf Autoencoder besagt das generative Prinzip, dass der Encoder nicht nur die verf\u00fcgbaren Daten optimal abbilden, sondern eine latente Wahrscheinlichkeitsverteilung lernen soll, die eigentlich die internen Codierungen des Encoders erzeugt. Hat man so ein Encoder Modell, kann man es nutzen, um unabh\u00e4ngig von den Trainingsdaten neue Codierungen f\u00fcr neue Eingabedaten auf Basis der gelernten Wahrscheinlichkeitsverteilung zu erzeugen. Aufgrund einer gro\u00dfen erzeugten Datenmenge kann man dann absch\u00e4tzen, wie ungleich gewichtet die urspr\u00fcnglichen Trainingsbeispiele verteilt sind. Durch eine gezielte andere Auswahl von Teilmengen aus den Trainingsdaten erh\u00e4lt man wiederum eine besser geeignete Trainingsmenge, die auch f\u00fcr andere Lernaufgaben genutzt werden kann.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Wahrscheinlichkeitsverteilung.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24752\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R <br>Abbildung 2: Abbildungen zwischen Datenraum und latenter Wahrscheinlichkeitsverteilung<\/figcaption><\/figure>\n\n\n\n<p>Dies bedeutet, dass wir jetzt den Autoencoder zum Lernen zweier probabilistischer Inferenzfunktionen nutzen wollen: Dies ist in Abbildung 2 grafisch dargestellt (weitere Erl\u00e4uterungen hierzu siehe den letzten Abschnitt \u00fcber Wasserstein Autoencoder): Die erste Funktion [latex]Q_{mathrm{VAE}}(Z|X)[\/latex] bildet den Eingaberaum&nbsp;[latex]cal(X)[\/latex] auf den Raum der latenten Autoencoder Repr\u00e4sentationen [latex]cal{Z}[\/latex] ab. Die zweite Funktion [latex]P_{mathrm{G}}(X|Z)[\/latex] bildet den latenten Raum [latex]cal(Z)[\/latex] dann auf den Ausgaberaum (der identisch mit dem Eingaberaum ist) ab. Wie dies f\u00fcr Autoencoder auf Basis eines neuronalen Netzes aussieht, ist in Abbildung 3 schematisch dargestellt. Beide Inferenzfunktionen nutzen statt der deterministischen Rechenregel f\u00fcr die Vorw\u00e4rts-Propagation in neuronalen Netzen eine modifizierte Funktion. Diese berechnet die internen Werte des Autoencoders aus den Eingabewerten unter zus\u00e4tzlicher Anwendung einer vorher fest definierten Wahrscheinlichkeitsverteilung, die deshalb A-priori-Verteilung genannt wird. Meistens wird daf\u00fcr eine Gauss-Verteilung genutzt. Dieses theoretische Konzept ben\u00f6tigt f\u00fcr die praktische Umsetzung noch grundlegende Modifikationen, die im Variational Autoencoder realisiert werden.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Ein generatives Modell: Variational Autoencoder<\/h2>\n\n\n\n<p>Die Standard-Backpropagation Lernregel des Autoencoders kann nicht auf Zufallsfunktionen angewendet werden. Dieses Problem wird durch eine sogenannte Reparametrisierung aus der Variationsrechnung gel\u00f6st. Daher auch der Name Variational Autoencoder. Im Wesentlichen bewirkt die Reparametrisierung der Lernregel, dass die beim Backpropagation Schritt in der internen Schicht des Autoencoders &#8222;ankommenden\u201c deterministischen Gradienten durch Parameter der Zufallsverteilung variiert werden. (siehe Abbildung 4)<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/VAS.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24754\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R <br>Abbildung 3: Variational Autoencoder Schema<\/figcaption><\/figure>\n\n\n\n<p>Die Berechnung der Gradienten selbst aus dem Vergleich von errechneter Ausgabe und der Lernvorgabe (die in diesem Fall ja identisch mit der Eingabe ist), muss ebenfalls modifiziert werden. Das bedeutet, dass eine andere Verlustfunktion als die \u00fcbliche MSE Funktion (= mean squared error) definiert werden muss. Dies ist damit begr\u00fcndet, dass der Autoencoder nicht einfach die deterministische Relation zwischen Eingabe und Ausgabe lernen, sondern die Unterschiede zwischen der Verteilung der errechneten Ausgabe und der Trainingsvorgabe-Verteilung minimiert werden soll. Daher ben\u00f6tigen wir eine Verlustfunktion, deren Gradient auch in den Bereichen des Datenraums definiert ist, f\u00fcr den keine Daten vorliegen und f\u00fcr den die Wahrscheinlichkeiten der Datenverteilung teilweise sehr gering sind.<\/p>\n\n\n\n<p>F\u00fcr den Vergleich zweier Wahrscheinlichkeitsverteilungen eignen sich aus diesen Gr\u00fcnden sogenannte Divergenz-Ma\u00dfe. Diese sind im Unterschied zu Verlustfunktionen wie MSE nicht direkt \u00fcber die Fehler definiert, die aus den Ausgaben eines neuronalen Netzes im Vergleich zu den Trainingsvorgaben berechnet werden. Divergenzma\u00dfe vergleichen vielmehr die latente Wahrscheinlichkeitsverteilung (die die Trainigsdaten &#8222;erzeugt&#8220; hat) mit der durch das gerade lernende Modell erzeugten Wahrscheinlichkeitsverteilung. Daher enthalten die theoretischen Formeln der Divergenzma\u00dfe Integrale. In der Praxis k\u00f6nnen diese Integrale jedoch nicht analytisch berechnet werden, sondern sie werden durch Auswertung der Trainingsdaten und Modellausgaben approximiert. Wir beschreiben im n\u00e4chsten Abschnitt das Beispiel eines Variational Autoencoders mit der Wasserstein Divergenz als Verlustfunktion.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Reparametrisierung.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24756\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R <br>Abbildung 4: Reparametrisierung<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Wasserstein Autoencoder<\/h2>\n\n\n\n<p>Der konzeptuelle Unterschied zwischen Variational Autoencoders mit Standard-Verlustfunktion und solchen mit Wasserstein Divergenz wird in Abbildung 5 dargestellt. Abbildung 5a visualisiert die Verh\u00e4ltnisse f\u00fcr einen Variational Autoencoder und Abbildung 5b die f\u00fcr einen Wasserstein Autoencoder. Beide Abbildungen sind in eine obere und eine untere H\u00e4lfte unterteilt. Die dunkelblaue H\u00e4lfte stellt den latenten, nicht beobachtbaren Datenraum dar, in dem die latenten Entsprechungen realer Daten (die &#8222;Codes&#8220;) als wei\u00dfe Dreiecke dargestellt sind. Die untere, hellblaue H\u00e4lfte stellt den realen Datenraum mit den beobachteten (Trainings-) Daten als Kreise und den Rekonstruktionen des Autoencoders als Quadrat dar.<\/p>\n\n\n\n<p>Zun\u00e4chst einige Erl\u00e4uterungen zu den Symbolen in den Abbildungen: [latex]cal{X}[\/latex] bezeichnet den realen Datenraum, in dem die beobachteten Daten [latex]X[\/latex](die kleinen Kreise) liegen. [latex]cal{Z}[\/latex] ist der latente Datenraum, in dem die latenten Codes [latex]Z[\/latex] liegen. Die Inferenzfunktion [latex]P_{mathrm{G}}(X|Z)[\/latex] &#8222;rekonstruiert&#8220; aus den latenten Codes (Dreiecke) reale Daten (Quadrate) aufgrund der erlernten Wahrscheinlichkeitsverteilung [latex]P_Z[\/latex]. Die Inferenzfunktionen [latex]Q_{mathrm{VAE}}(Z|X)[\/latex] (Abbildung 5a) und [latex]Q_{mathrm{WAE}}(Z|X)[\/latex] (Abbildung 5b) bilden die real beobachteten Daten (Kreise) auf die latenten Codes (Dreiecke) ab.<\/p>\n\n\n\n<figure class=\"wp-block-image size-full\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/VAEWAE.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-24758\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 ML2R <br>Abbildung 5: Variational (VAE) und Wasserstein (WAE) Autoencoder<\/figcaption><\/figure>\n\n\n\n<p>Im Falle des VAE in Abbildung 5a f\u00fchrt die Standard-Verlustfunktion beim Lernen dazu, dass unterschiedliche reale Daten [latex]x[\/latex] unterschiedliche Inferenzfunktionen [latex]Q_{mathrm{VAE}}(Z|X=x)[\/latex] und somit lokale Wahrscheinlichkeitsverteilungen [latex]P_Z[\/latex] in [latex]cal{Z}[\/latex] induziert werden. In Abbildung 5a ist dies durch mehrere orange Kreise um die latenten Codes angedeutet. Dadurch wird die latente Wahrscheinlichkeitsverteilung [latex]Z[\/latex] (wei\u00dfer Kreis) nur unzureichend approximiert. Dies f\u00fchrt zu ungenauen Rekonstruktionen der realen Daten durch das Autoencoder Modell (gr\u00fcne Pfeile). Im Gegensatz dazu erm\u00f6glicht die Wasserstein Verlustfunktion beim WAE (Abbildung 5b) eine konsistente Approximation [latex]P_Z[\/latex] der latenten Verteilung [latex]Q_Z[\/latex] und damit k\u00f6nnen unterschiedliche reale Daten auch in ihren Rekonstruktionen besser unterschieden werden. Mehr Informationen \u00fcber Wasserstein-Autoencoder kann in dem <a href=\"https:\/\/arxiv.org\/pdf\/1711.01558.pdf\" target=\"_blank\" rel=\"noreferrer noopener\">zugeh\u00f6rigen Paper<\/a> von Ilya Tolstikhin et al. gefunden werden.<\/p>\n\n\n\n<p>Wir haben in diesem Blog-Beitrag das Prinzip der generativen Modelle am Beispiel des neuronalen Autoencoders skizziert. In praktischen Anwendungen finden sich generative Modelle oft verborgen in komplexen neuronalen oder hybriden Architekturen, wie etwa GANs. Die Erfolge dieses relativ neuen Typs neuronaler Netze im Bereich Bildverarbeitung, autonomer Systeme und neuerdings auch maschineller \u00dcbersetzung demonstrieren die Ad\u00e4quatheit dieses Ansatzes f\u00fcr die Auswertung sehr gro\u00dfer realer Datenmengen mir dem Ziel, allgemeing\u00fcltige Modelle anzun\u00e4hern.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>In diesem Beitrag erkl\u00e4ren wir den Ansatz der generativen neuronalen Modelle. Diese haben in Anwendungsbereichen, in denen handkuratierte Daten f\u00fcr \u00fcberwachtes Lernen schwer oder nicht erh\u00e4ltlich sind, gute Erfolge erzielt.<\/p>\n","protected":false},"author":9,"featured_media":4600,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,396],"blog-tag":[1655,1512,1514,1558],"class_list":["post-4589","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-forschung","blog-tag-autoenconder","blog-tag-gans-de","blog-tag-generative-ki","blog-tag-neuronale-netze"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4589","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4589\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4600"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4589"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4589"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4589"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}