Große Sprachmodelle besitzen ein immenses Transformationspotenzial. Sogenannte Foundation-Modelle können mittlerweile nicht nur die Bedeutung von Texten und Bildern erfassen und selbst erzeugen, sondern sind auch auf Videos anwendbar.
Sogenannte Foundation-Modelle entwickeln sich schnell und können bereits qualitativ anspruchsvolle Aufgaben automatisiert durchführen und unterschiedliche Medien gleichzeitig betrachten. Dieser Beitrag wirft einen Blick hinter die Kulissen der großen Sprachmodelle.