{"id":4287,"date":"2023-01-25T05:00:30","date_gmt":"2023-01-25T05:00:30","guid":{"rendered":"https:\/\/lamarr-institute.org\/blog\/videos-foundation-modelle\/"},"modified":"2025-11-12T14:51:38","modified_gmt":"2025-11-12T14:51:38","slug":"videos-foundation-modelle","status":"publish","type":"blog","link":"https:\/\/lamarr-institute.org\/de\/blog\/videos-foundation-modelle\/","title":{"rendered":"Vom Wort zum Video: Wie sich mit Foundation-Modellen aus Text Bewegtbild erzeugen l\u00e4sst"},"content":{"rendered":"\n<p>Gro\u00dfe Sprachmodelle k\u00f6nnen die Bedeutung von Inhalten wie Texten und Bildern erfassen und selbst neue Texte und Bilder erzeugen. Wegen der riesigen Bandbreite an Anwendungen werden diese Modelle auch als Foundation-Modelle bezeichnet. Durch den enormen Stellenwert bewegter Bilder in unserem Alltag liegt es nahe, diese Ans\u00e4tze auch auf Videos auszuweiten. Aufgrund ihrer hohen Relevanz ergeben sich au\u00dferdem vielf\u00e4ltige Anwendungsf\u00e4lle f\u00fcr derartige Techniken. Im folgenden Beitrag zeigen wir, wie sich mithilfe gro\u00dfer Sprachmodelle aus Texten Videos erzeugen lassen.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Foundation-Modelle k\u00f6nnen Texte und Bilder erfassen<\/h2>\n\n\n\n<p>Seit vor zwei Jahren GPT-3 vorgestellt wurde, hat die generative KI enorme Fortschritte gemacht. Gro\u00dfe Sprachmodelle sind mittlerweile in der Lage, einen Starttext in fl\u00fcssiger und inhaltlich nahezu fehlerfreier Weise zu vervollst\u00e4ndigen.<\/p>\n\n\n\n<p>Ausgangspunkt ist die in dem tiefen neuronalen Netzwerk <a href=\"https:\/\/lamarr-institute.org\/de\/bert\" target=\"_blank\" rel=\"noreferrer noopener\">BERT<\/a> vorgestellte Technik der kontextsensitiven Einbettungen. Dabei wird die Bedeutung eines Tokens durch einen langen numerischen Vektor beschrieben und es werden, je nach Kontext, unterschiedliche kontextsensitive Einbettungen generiert (mehr dazu im Beitrag: <a href=\"https:\/\/lamarr-institute.org\/de\/kontextabhaengige-einbettungsvektoren\/\" target=\"_blank\" rel=\"noreferrer noopener\">Die Bedeutung von Worten durch Vektoren erfassen<\/a>).<\/p>\n\n\n\n<p>Es hat sich gezeigt, dass man Bilder auch in eine begrenzte Menge von Token zerlegen kann, die aus kleinen Pixelbereichen von zum Beispiel 14&#215;14 Pixeln bestehen. Der Vision Transformer (Dosovitsky et al. 2020) ordnet diesen Pixelbereichen eine Einbettung zu und nutzt dann den BERT-Algorithmus, um f\u00fcr diese Token kontextsensitive Einbettungen abzuleiten. Anschlie\u00dfend kann man das Verfahren verfeinern, beispielsweise mit einer Aufgabe der Bildklassifikation. Auf dem ImageNet-Testset konnte der Vision Transformer mit 88,5 % Genauigkeit alle bisherigen Modelle schlagen. Dies zeigt, dass bei umfangreichen Trainingsdaten Transformermodelle auch f\u00fcr Aufgaben der Bildverarbeitung vorteilhaft sind.<\/p>\n\n\n\n<h2 class=\"wp-block-heading\">Auch Videos lassen sich durch Token repr\u00e4sentieren<\/h2>\n\n\n\n<p>Videos bestehen nicht nur aus einem Bild, sondern aus vielen Bildern in zeitlicher Abfolge und erfordern daher die Ber\u00fccksichtigung von sehr vielen Daten. VideoBERT (Sun et al. 2019) wendet das BERT-Modell auf eine gemeinsame Darstellung von Text und Videobildern durch Token an. Das Video wird in Clips von 30 Bildern (1,5 Sekunden) unterteilt, aus denen ein temporales Faltungsnetz Einbettungsvektoren der L\u00e4nge 1.024 erzeugt. Die Clip-Einbettungen werden durch k-Means-Clustering in 20.736 Cluster gruppiert und durch \u201eVideotoken\u201c repr\u00e4sentiert. Die Sprache des Videos wird durch ein Spracherkennungsverfahren in Text \u00fcberf\u00fchrt und in S\u00e4tze unterteilt. Gleichzeitig wird der Text durch einen Tokenisierungsalgorithmus, der auf ein Vokabular von 30.000 Token zur\u00fcckgreift, in Token umgewandelt. Die Videotoken, die der Zeitperiode des Satzes entsprechen, werden in einer Video-Token-Sequenz gesammelt. Wie in Abb. 1 gezeigt, werden die Video-Token an die entsprechenden Texttoken angeh\u00e4ngt und durch spezielle Token getrennt.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/Abb_1_VideoBERT_c_Sun_et_al_2019-1-1024x271.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25506\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Sun et al. 2019 <br>Abbildung 1: VideoBERT erweitert die Texttoken durch Videotoken und prognostiziert im Vortraining maskierte Token. Hierdurch wird die Beziehung zwischen Text und Bild\/Videoinformation gelernt.<\/figcaption><\/figure>\n\n\n\n<p>Das Modell wurde mit einem Videodatensatz von 312.000 Kochvideos mit einer Gesamtdauer von 966 Tagen vortrainiert. Gibt man ein Video und einen Text mit sehr vielen [MASK] Token ein, so beschreibt VideoBERT das Video durch einen Text. Die Qualit\u00e4t dieser Videountertitelung ist besser als bei den vorherigen Ans\u00e4tzen.<\/p>\n\n\n\n<p>Mittlerweile gibt es eine Vielzahl von Systemen zur Verarbeitung von Videos zusammen mit anderen Medien. N\u00dcWA (Wu et al. 2022) verwendet eine gemeinsame Token-Darstellung f\u00fcr Texte, Bilder und Videos und lernt im Vortraining den Zusammenhang zwischen den Token der einzelnen Medien. Anschlie\u00dfend kann es nach entsprechendem \u201eFeintuning\u201c acht unterschiedliche Aufgaben erf\u00fcllen (siehe Abb.2), unter anderem die Erzeugung eines Videos zu einem Text. Hier konnte es die Leistung der bisherigen Modelle \u00fcbertreffen. Allerdings ist die Aufl\u00f6sung der Videos noch niedrig.<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/Abb_2_Das_NUeWA-Modell_c_Wu_et_al_2022_-1024x542.jpg\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25508\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Wu et al. 2022 <br>Abbildung 2: Das N\u00dcWA-Modell kann acht unterschiedliche Aufgaben erf\u00fcllen.<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Make-a-Video erzeugt Videos hoher Aufl\u00f6sung zu einer textuellen Beschreibung<\/h2>\n\n\n\n<p>Im letzten Jahr wurden Modelle zur Videoerzeugung entwickelt, die Videos mit hoher Aufl\u00f6sung aus Text generieren k\u00f6nnen. Make-a-Video (Singer et al. 2022) baut auf Text-Bild-Modellen mit neuartigen r\u00e4umlich-zeitlichen Modulen auf. Es beschleunigt das Training des Text-Video-Modells, ohne dass visuelle und multimodale Repr\u00e4sentationen von Grund auf gelernt werden m\u00fcssen, und ben\u00f6tigt keine gepaarten Text-Videodaten. Die generierten Videos \u00fcbernehmen die Eigenschaften des Text-Bild-Modells und sein Wissen \u00fcber vielf\u00e4ltige Bildtypen. Doch wie genau funktioniert das? Ein Text-nach-Bild-Basismodell erzeugt Bilder zu Texten und wird auf Text-Bild-Paaren trainiert. Ein Prior-Netzwerk [latex]P[\/latex] generiert dabei Bildeinbettungen zu den vorgegebenen Texttoken (vgl. Abb. 3). Aus diesen produziert ein raum-zeitliches Decoder-Netzwerk [latex]D^t[\/latex] eine Serie von 16 Videobildern mit einer Aufl\u00f6sung von 64&#215;64 Pixeln. Diese werden dann durch die Bildinterpolation [latex]F[\/latex] in eine h\u00f6here zeitliche Aufl\u00f6sung \u00fcberf\u00fchrt. Anschlie\u00dfend werden mithilfe eines raum-zeitlichen Super-Aufl\u00f6sungsnetzwerks [latex]SR_{l}[\/latex] die Bilder in eine h\u00f6here 256&#215;256 Pixel-Aufl\u00f6sung erweitert. Zum Schluss generiert daraus das Super-Aufl\u00f6sungsnetzwerke [latex]SR_{h}[\/latex] das Ausgabevideo in finaler 768&#215;768 Pixel-Aufl\u00f6sungen (vgl. Abb. 3).<\/p>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/\/Abb_3_Architektur_des_Make-A-Video_Modells_c_Singer_et_al_2022-1024x409.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25516\" title=\"\"><figcaption class=\"wp-element-caption\">\u00a9 Singer et al. 2022<br>Abbildung 3: Architektur des Make-A-Video Modells. Diese&nbsp;<a href=\"https:\/\/makeavideo.studio\/\" target=\"_blank\" rel=\"noreferrer noopener\">Webseite<\/a>&nbsp;zeigt eine Reihe von erzeugten Beispielvideos mit einer maximalen L\u00e4nge von 5 Sekunden.&nbsp;<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Imagen-Video nutzt Diffusionsmodelle zur Erh\u00f6hung der Aufl\u00f6sung<\/h2>\n\n\n\n<p>Imagen-Video (Ho et al. 2022) ist ein \u00e4hnliches Modell zur Erzeugung hochaufl\u00f6sender Videos. Es nutzt einen T5-Encoder-Decoder, um aus einem Eingabetext eine Reihe von 16 Videobildern der Aufl\u00f6sung 40&#215;24 Pixel zu generieren. Anschlie\u00dfend wird eine Serie von 6 Modellen verwendet, um die zeitliche und r\u00e4umliche Aufl\u00f6sung sukzessive auf 128 Videobilder mit 1280&#215;768 Pixel zu erh\u00f6hen.<\/p>\n\n\n\n<p>Zur Erh\u00f6hung der Aufl\u00f6sung werden Diffusionsmodelle verwendet. Ein Diffusionsmodell beschreibt den Prozess der systematischen und langsamen Zerst\u00f6rung von Pixelbildern durch die schrittweise Ab\u00e4nderung der Pixelwerte durch unabh\u00e4ngige kleine St\u00f6rungen. Dies gibt eine Serie von Bildern [latex]x^{[0]}, \u2026 , x^{[T]}[\/latex] , die n\u00e4herungsweise der Normalverteilung folgt. Man kann diesen Prozess nun umkehren, d.h. schrittweise aus einem verrauschten Bild [latex]x^{[t]}[\/latex] ein weniger verrauschtes Bild [latex]x^{[t-1]}[\/latex] erzeugen. Das zugeh\u00f6rige Diffusionsmodell kann durch die Rekonstruktion von schrittweise gest\u00f6rten Bildern gelernt werden. Es zeigt sich, dass mithilfe dieser Technik kleine unscharfe Bilder mit einer hohen hohen Zuverl\u00e4ssigkeit in gr\u00f6\u00dfere, detailgetreue Bilder expandiert werden k\u00f6nnen. Dieser Ansatz wird in vielen aktuellen Text-Bild Modellen, wie DALL-E, Stable Diffusion und <a href=\"https:\/\/imagen.research.google\/video\/\" target=\"_blank\" rel=\"noreferrer noopener\">Imagen<\/a> mit Erfolg verwendet.<\/p>\n\n\n\n<figure class=\"wp-block-gallery has-nested-images columns-1 is-cropped wp-block-gallery-2 is-layout-flex wp-block-gallery-is-layout-flex\">\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" data-id=\"25518\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb_4_1_Eine_Person_faehrt_mit_dem_Fahrrad_bei_Sonnenuntergang_c_Imagen_Video.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25518\" title=\"\"><figcaption class=\"wp-element-caption\">Eine Person f\u00e4hrt mit dem Fahrrad bei Sonnenuntergang.\n\n<\/figcaption><\/figure>\n\n\n\n<figure class=\"wp-block-image size-large\"><img decoding=\"async\" data-id=\"25520\" src=\"https:\/\/lamarr-institute.org\/wp-content\/uploads\/Abb_4_2_Eine_Gruppe_von_Leuten_wandert_durch_den_Wald_c_Imagen_Video.png\" alt=\"- Lamarr Institute for Machine Learning (ML) and Artificial Intelligence (AI)\" class=\"wp-image-25520\" title=\"\"><figcaption class=\"wp-element-caption\">Eine Gruppe von Leuten wandert durch den Wald.\n\n<\/figcaption><\/figure>\n<figcaption class=\"blocks-gallery-caption wp-element-caption\">Abbildung 4: Videobilder aus mit Imagen Video erzeugten Videos von dieser&nbsp;<a href=\"https:\/\/imagen.research.google\/video\/\" target=\"_blank\" rel=\"noreferrer noopener\">Webseite<\/a>.<\/figcaption><\/figure>\n\n\n\n<h2 class=\"wp-block-heading\">Ausblick<\/h2>\n\n\n\n<p>Die Einbeziehung von Bildern und insbesondere Videos erm\u00f6glicht es, die Bedeutung von Worten und S\u00e4tzen mit Abl\u00e4ufen in der realen Welt zu verkn\u00fcpfen. Foundation-Modelle k\u00f6nnen daher als autonome Agenten betrachtet werden, die die Verbindung zwischen den Token eines Textes und den Sinneswahrnehmungen der Au\u00dfenwelt herstellen k\u00f6nnen. In diesem Sinne k\u00f6nnen sie das Symbol Grounding Problem l\u00f6sen, welches die K\u00fcnstliche Intelligenz schon seit vielen Jahrzehnten besch\u00e4ftigt (Bommasani et al. 2021, p.42). Damit k\u00f6nnen derartige Modelle weitere essenzielle Dimensionen der Bedeutung von Konzepten erwerben.<\/p>\n\n\n\n<p>Derzeit sind fortgeschrittene Foundation-Modelle f\u00fcr Video in Europa nicht verf\u00fcgbar, da die europ\u00e4ische Forschungslandschaft nicht \u00fcber die Strukturen und die Rechenkapazit\u00e4t verf\u00fcgt, um solche gro\u00df angelegten Modelle mit vielen Milliarden Parametern zu trainieren. Die <a href=\"https:\/\/leam.ai\/\" target=\"_blank\" rel=\"noopener\">LEAM<\/a> Initiative (Large European Language Models) hat sich daher das Ziel gesetzt, eine solche Infrastruktur f\u00fcr Foundation-Modelle in Deutschland zu initiieren. Sie soll das Training und die Erforschung gro\u00dfer Sprachmodelle f\u00fcr den Europ\u00e4ischen Sprachraum erm\u00f6glichen. Als eines der wichtigsten Forschungsziele wurde hierbei die Erzeugung von hochqualitativen Videos zu vorgegebenen Texten gew\u00e4hlt.<\/p>\n\n\n\n<h3 class=\"wp-block-heading\">Referenzen<\/h3>\n\n\n\n<p><strong>On the opportunities and risks of foundation models<\/strong>.<br>Bommasani, R., Hudson, D. A., Adeli, E., Altman, R., Arora, S., von Arx, S., \u2026 &amp; Liang, P. (2021). <em><a href=\"https:\/\/arxiv.org\/abs\/2108.07258\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv preprint<\/a><\/em><\/p>\n\n\n\n<p><strong>An image is worth 16&#215;16 words: Transformers for image recognition at scale<\/strong>.<br>Dosovitskiy, A., Beyer, L., Kolesnikov, A., Weissenborn, D., Zhai, X., Unterthiner, T., \u2026 &amp; Houlsby, N. (2020). <a href=\"https:\/\/arxiv.org\/abs\/2010.11929\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv preprint<\/a><\/p>\n\n\n\n<p><strong>Imagen video: High definition video generation with diffusion models.<\/strong><br>Ho, J., Chan, W., Saharia, C., Whang, J., Gao, R., Gritsenko, A., \u2026 &amp; Salimans, T. (2022). <em><a href=\"https:\/\/arxiv.org\/abs\/2210.02303\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv preprint<\/a><\/em><\/p>\n\n\n\n<p><strong>Make-a-video: Text-to-video generation without text-video data.<\/strong><br>Singer, U., Polyak, A., Hayes, T., Yin, X., An, J., Zhang, S., \u2026 &amp; Taigman, Y. (2022). <em><a href=\"https:\/\/arxiv.org\/abs\/2209.14792\" target=\"_blank\" rel=\"noreferrer noopener\">arXiv preprint<\/a><\/em><\/p>\n\n\n\n<p><strong>Videobert: A joint model for video and language representation learning.<\/strong><br>Sun, C., Myers, A., Vondrick, C., Murphy, K., &amp; Schmid, C. (2019). In <em>Proceedings of the IEEE\/CVF International Conference on Computer Vision<\/em> (pp. 7464-7473). <a href=\"https:\/\/arxiv.org\/abs\/1904.01766\" target=\"_blank\" rel=\"noreferrer noopener\">Link<\/a><\/p>\n\n\n\n<p><strong>N\u00fcwa: Visual synthesis pre-training for neural visual world creation.<\/strong><br>Wu, C., Liang, J., Ji, L., Yang, F., Fang, Y., Jiang, D., &amp; Duan, N. (2022). In <em>European Conference on Computer Vision<\/em> (pp. 720-736). Springer, Cham. <a href=\"https:\/\/arxiv.org\/abs\/2111.12417\" target=\"_blank\" rel=\"noreferrer noopener\">Link<\/a><\/p>\n","protected":false},"excerpt":{"rendered":"<p>Gro\u00dfe Sprachmodelle besitzen ein immenses Transformationspotenzial. Sogenannte Foundation-Modelle k\u00f6nnen mittlerweile nicht nur die Bedeutung von Texten und Bildern erfassen und selbst erzeugen, sondern sind auch auf Videos anwendbar.<\/p>\n","protected":false},"author":9,"featured_media":4055,"template":"","meta":{"_acf_changed":false,"footnotes":""},"blog-category":[1416,390,1418],"blog-tag":[1452,1488,1516,1551,1598],"class_list":["post-4287","blog","type-blog","status-publish","has-post-thumbnail","hentry","blog-category-alle-blogbeitraege","blog-category-grundlagen","blog-category-sprachtechnologien","blog-tag-bert-de","blog-tag-foundation-modelle","blog-tag-gpt-de","blog-tag-large-language-models-llms-de","blog-tag-sprachmodelle"],"acf":[],"publishpress_future_workflow_manual_trigger":{"enabledWorkflows":[]},"_links":{"self":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4287","targetHints":{"allow":["GET"]}}],"collection":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog"}],"about":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/types\/blog"}],"author":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/users\/9"}],"version-history":[{"count":0,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog\/4287\/revisions"}],"wp:featuredmedia":[{"embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media\/4055"}],"wp:attachment":[{"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/media?parent=4287"}],"wp:term":[{"taxonomy":"blog-category","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-category?post=4287"},{"taxonomy":"blog-tag","embeddable":true,"href":"https:\/\/lamarr-institute.org\/de\/wp-json\/wp\/v2\/blog-tag?post=4287"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}