Magisch und verstörend: KI-Kurzfilm zeigt Stärken der Technik – und Schwächen

Kurzfilme wie "The Frost" zeigen, wie künstliche Intelligenz die Produktion und Ästhetik des Filmemachens verändert.

In Pocket speichern vorlesen Druckansicht 74 Kommentare lesen

Screenshot aus dem KI-generierten Kurzfilm "The Frost".

(Bild: Waymark / Latent Cinema)

Lesezeit: 11 Min.
Von
  • Will Douglas Heaven
Inhaltsverzeichnis

Die unheimliche, beunruhigende Atmosphäre von "The Frost" wird schon in den ersten Einstellungen deutlich. Man sieht eisige Berge, ein behelfsmäßiges Militärzeltlager, Menschen, die um ein Feuer kauern, bellende Hunde, die ein wachsendes Gefühl des Grauens zu erzeugen: Irgendetwas stimmt hier nicht.

"Reich mir den Schwanz", sagt eine Stimme. Eine Nahaufnahme zeigt einen Mann am Feuer, der an einem Stück Dörrfleisch nagt. Die Art, wie sich seine Lippen bewegen, ist nicht ganz richtig. Für einen Moment sieht es so aus, als würde er auf seiner eigenen gefrorenen Zunge kauen.

Willkommen in der grotesken Welt der KI-Filme. "Irgendwann haben wir aufgehört, auf fotografische Genauigkeit zu pochen und begannen, uns auf die Verrücktheit von DALL-E einzulassen", sagt Stephen Parker von Waymark, der in Detroit ansässigen Videoproduktionsfirma, die hinter "The Frost" steht. Herausgekommen ist ein 12-minütiger Film (exklusiv auf der Website der amerikanischen MIT Technology Review zu sehen), in dem jede Aufnahme von einer KI generiert wird. Er ist eines der bis dato beeindruckendsten – und bizarrsten – Beispiele für dieses seltsame neue Genre.

Für die Produktion von "The Frost" nahm Waymark ein Skript von Josh Rubin, einem ausführenden Produzenten des Unternehmens, und fütterte damit den KI-Bildgenerator DALL-E 2. Nach einigen Versuchen, das Modell dazu zu bringen, Bilder in einem Stil zu erzeugen, mit dem sie zufrieden waren, verwendeten die Filmemacher DALL-E, um jede weitere Einstellung zu "drehen". Dann setzten sie D-ID ein, ein Tool, mit dem Standbilder animiert werden können. So können die Zelte im Wind flattern und sich die Lippen beim Sprechen bewegen.

"Dies ist sicherlich der erste generative KI-Film, den ich gesehen habe, bei dem sich der Stil konsistent anfühlt", sagt Souki Mehdaoui, eine unabhängige Filmemacherin und Mitbegründerin von Bell & Whistle, einer auf kreative Technologien spezialisierten Beratungsfirma. "Die Generierung von Standbildern und dem späteren Puppenspiel verleiht dem Film den Vibe einer besonderen Collage."

"The Frost" ist nicht der einzige Kurzfilm, der in den vergangenen Monaten mithilfe generativer künstlicher Intelligenz erstellt wurde. Selbst die besten Modelle sind derzeit noch auf wenige Sekunden Video beschränkt. Daher weisen viele Filme eine breite Palette von Stilen und Techniken auf, die von storyboardartigen Sequenzen wie in "The Frost" hin zu wilden Zusammenschnitten vieler verschiedener Videoclips reichen.

Im Februar und März veranstaltete Runway, ein US-Unternehmen, das KI-Tools für die Videoproduktion herstellt, ein KI-Filmfestival in New York. Zu den Höhepunkten gehörten "PLSTC" von Laen Sanches, eine schwindelerregende Sequenz von seltsamen, in Plastik eingewickelten Meeresbewohnern, die mithilfe des Bildgenerators Midjourney generiert wurden. "Given Again" von Jake Oleson, der eine Technologie namens NeRF (neural radiance fields) verwendet, die 2D-Fotos in virtuelle 3D-Objekte verwandelt. Und die surreale Nostalgie von Sam Lawtons "Expanded Childhood", einer Diashow von alten Familienfotos, die Lawton mithilfe von DALL-E 2 über ihre Grenzen hinaus erweitern ließ, sodass er mit den halb erinnerten Details der alten Bilder spielen konnte.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier ein externes YouTube-Video (Google Ireland Limited) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Google Ireland Limited) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Künstlerinnen und Künstler sind oft die ersten, die mit neuen Technologien experimentieren. Aber auch die Werbeindustrie ist häufig ganz vorne mit dabei. So hat Waymark "The Frost" auch deshalb entwickelt, um herauszufinden, wie das Unternehmen generative KI in seine Produkte integrieren kann. Waymark stellt nämlich Software für die Videoproduktion her, mit denen Unternehmen schnell und kostengünstig Werbespots erstellen können.

Die aktuelle Technologie von Waymark, die Anfang des Jahres auf den Markt kam, kombiniert verschiedene KI-Techniken, darunter Sprachmodelle, Bilderkennung und Sprachsynthese, um in wenigen Schritten eine Werbeanzeige zu erstellen. Waymark stützt sich dabei auch auf seinen großen Datensatz von traditionellen Werbespots, die für frühere Kunden erstellt wurden. "Wir haben Hunderttausende von Videos", sagt CEO Alex Persky-Stern. "Wir haben die besten davon ausgewählt und die KI damit trainiert, um ihr zu zeigen, wie ein gutes Video aussieht."

Um das Waymark-Tool zu nutzen, das als Teil eines gestaffelten Abonnements ab 25 US-Dollar pro Monat angeboten wird, geben die Nutzenden die Website oder die Social-Media-Konten ihres Unternehmens an. Die Software sammelt anschließend alle Texte und Bilder, die es finden kann. Anhand dieser Daten wird dann ein Werbespot erstellt, wobei GPT-3 ein passendes Skript schreibt, das von einer synthetischen Stimme über ausgewählte Bilder, die das Unternehmen hervorheben, vorgelesen wird. In Sekundenschnelle entsteht so ein einminütiger Werbespot. Die Kunden können das Ergebnis nach Belieben bearbeiten, indem sie das Skript optimieren, die Bilder bearbeiten oder eine andere Stimme wählen. Waymark sagt, dass bisher mehr als 100.000 Menschen das Tool genutzt haben.

Ein Problem sei, dass nicht jedes Unternehmen eine Website oder Bilder hat, auf die es zurückgreifen kann, sagt Parker, man denke an einen Steuerberater oder Therapeutinnen. Deshalb plant Waymark, generative KI zu nutzen, um Bilder und Videos für Unternehmen zu erstellen, die entweder noch keine haben oder die vorhandenen nicht nutzen wollen. Das sei ein Antrieb für die Entwicklung von "The Frost", sagt Parker.

"The Frost" hat sicherlich eine eigene Ästhetik. Aber der Film ist auch sehr schräg. "Es ist noch lange kein perfektes Medium", sagt Regisseur Josh Rubin. "Es war schwierig, bestimmte Dinge aus DALL-E herauszukitzeln, wie zum Beispiel emotionale Reaktionen in den Gesichtern. Aber in anderen Momenten hat es uns begeistert. Wir dachten: 'Oh mein Gott, das ist Magie, die da vor unseren Augen passiert.'"

Dieser Hit-and-Miss-Prozess wird sich vermutlich verbessern, wenn die Technologie besser wird. DALL-E 2 wurde erst vor einem Jahr veröffentlicht. Tools zur Videogenerierung, die kurze Clips erzeugen, gibt es erst seit ein paar Monaten.

Der revolutionärste Aspekt der Technologie sei die Möglichkeit, neue Aufnahmen zu erstellen, wann immer man sie braucht, sagt Rubin: "Nach 15 Minuten Ausprobieren hat man die gewünschte Aufnahme, die perfekt in eine Sequenz passt." Er erinnert sich daran, wie er den Film zusammenschnitt und bestimmte Aufnahmen benötigte, etwa eine Nahaufnahme eines Stiefels an einem Berghang. Bei DALL-E konnte er sie einfach abrufen. "Es ist überwältigend", sagt er, "das war eine Erfahrung, die mir als Filmemacher die Augen geöffnet hat."

Ähnlich erging es Chris Boyle, Mitbegründer von Private Island, einem in London ansässigen Start-up, das Kurzvideos und Werbespots produziert, unter anderem für Marken wie Bud Light, Nike, Uber und Videospiele wie Call of Duty. Boyle und sein Team setzen bereits seit einigen Jahren KI-Tools in der Postproduktion ein, haben aber während der Pandemie die Bemühungen intensiviert: "Während des Lockdowns waren wir zwar sehr beschäftigt, konnten aber nicht mehr so drehen wie zuvor, sodass wir zu dieser Zeit verstärkt auf maschinelles Lernen setzten", sagt Boyle.

Das Unternehmen führte eine Reihe von Technologien ein, die die Postproduktion und die visuellen Effekte vereinfachen, etwa die Erstellung von 3D-Szenen aus 2D-Bildern mit NeRFs und die Verwendung von maschinellem Lernen, um Motion-Capture-Daten aus vorhandenem Filmmaterial zu extrahieren, anstatt sie von Grund auf neu zu sammeln.

Generative KI ist die nächste Stufe. Vor ein paar Monaten postete Private Island auf seinem Instagram-Account eine gefälschte Bierwerbung, die mit dem Videoerstellungsmodell Gen-2 von Runway und dem Bildgenerator Stable Diffusion produziert wurde. Er wurde zu einem viralen Hit. Das Video mit dem Titel "Synthetic Summer" zeigt eine typische Hinterhof-Party, bei der sich junge, sorglose Menschen zurücklehnen und ihre Drinks in der Sonne genießen. Nur dass viele dieser Leute klaffende Löcher anstelle von Mündern haben, ihre Bierdosen beim Trinken im Kopf versinken und der ganze Hinterhof in Flammen steht. Es ist eine Horrorshow und für Boyle visualisiert der Filme einige unserer Ängste vor künstlicher Intelligenz.

Empfohlener redaktioneller Inhalt

Mit Ihrer Zustimmmung wird hier eine Vimeo-Video (Vimeo LLC) geladen.

Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit können personenbezogene Daten an Drittplattformen (Vimeo LLC) übermittelt werden. Mehr dazu in unserer Datenschutzerklärung.

Ist das nun der Beginn einer neuen Ära des Filmemachens? "The Frost" und "Synthetic Summer" spielen beide mit den Stärken der Technik, die sie hervorgebracht hat. "The Frost" eignet sich gut für die gruselige Ästhetik von DALL-E 2, "Synthetic Summer" hat viele schnelle Schnitte, weil Tools wie Gen-2 wie erwähnt jeweils nur ein paar Sekunden Video am Stück produzieren können, die dann zusammengefügt werden müssen. Das funktioniere bei einer Partyszene, in der alles chaotisch ist, sagt Boyle. Private Island habe auch überlegt, einen Martial-Arts-Film zu drehen, bei dem schnelle Schnitte zum Thema passen.

Das könnte bedeuten, dass generative Videos in Zukunft auch in Musikvideos und Werbespots zum Einsatz kommen werden. Die Einsatzmöglichkeiten darüber hinaus sind weniger klar. Abgesehen von experimentierfreudigen Künstlern und einigen wenigen Marken gebe es noch nicht viele Menschen, die diese Technik nutzen, sagt Branchenkennerin Souki Mehdaoui.

Der ständige Wandel sei auch für potenzielle Kunden abschreckend. "Ich habe mit vielen Unternehmen gesprochen, die zwar interessiert sind, sich aber scheuen, Ressourcen in Projekte zu stecken, weil sich die Technologie so schnell verändert", sagt sie. Boyle ergänzt, dass viele Unternehmen auch wegen der laufenden Rechtsstreitigkeiten über die Verwendung urheberrechtlich geschützter Bilder in den Datensätzen, die zum Trainieren von Modellen wie Stable Diffusion verwendet werden, vorsichtig sind.

Niemand wisse mit Sicherheit, wohin die Reise geht, sagt Mehdaoui: "Es gibt viele Annahmen, die im Moment wie Pfeile geworfen werden, ohne dass es eine Zielscheibe gibt."

In der Zwischenzeit experimentieren die Filmemacherinnen und Filmemacher weiter. Mehdaoui etwa setzt generative KI ein, um einen kurzen Dokumentarfilm zu drehen, der zur Entstigmatisierung der Opioidabhängigkeit beitragen soll. Waymark plant eine Fortsetzung von "The Frost", weiß aber noch nicht, ob dabei erneut DALL-E 2 eingesetzt wird. "Wenn wir den nächsten Film machen, werden wir wahrscheinlich eine neue Technologie verwenden und sehen, was sie leisten kann", sagt CEO Persky-Stern.

Private Island drehte Anfang dieses Jahres ein Video mit einem von ChatGPT erstellten Drehbuch und von Stable Diffusion produzierten Bildern. Jetzt arbeitet das Unternehmen an einem Film, der eine Mischung aus Live-Action und von Stable Diffusion entworfenen Kostümen darstellt. "Wir sind von der Ästhetik sehr angetan", sagt Boyle. Sie sei eine Abwechslung zu der in der digitalen Kultur vorherrschenden Bildsprache, die sich auf Emoji und Glitch-Effekte beschränkt. "Es ist sehr spannend zu sehen, woher die neue Ästhetik kommen wird. Die generative KI ist wie ein zerbrochener Spiegel."

(jle)