Medienzukunft. Heute ist der Name meiner Website Programm. Konkret frage ich mich, welche Rolle KI-Anwendungen spielen, spielen werden oder spielen können, die aus geschriebenen Anweisungen (Prompts) Videoclips oder gar ganze Videos erstellen. Jetzt gehöre ich nicht zu denen, die unkritisch in Begeisterung über die immer leistungsstärkeren Algorithmen ausbrechen. Aber mich beschäftigt schon die Frage, welche Auswirkungen diese Anwendungen auf die Bewegtbild-Schaffenden haben werden – letztlich auch auf uns Fernseh- und Videojournalistinnen und –journalisten. Vor allem, seit ich heute LTX-Studio ausprobiert habe.
gleich ein ganzes Filmstudio
Nach einiger Wartezeit hat mir das Unternehmen hinter der Anwendung, das israelische Unternehmen Lightricks, einen Zugang zur kostenlosen Betaversion von LTX-Studio, gewährt.
Die KI-Videos von OpenAI’s Sora sind durchaus beeindruckend, allerdings besteht nach wie vor keine Möglichkeit selber Videos mit der Anwendung zu machen. Das ist bei LTX-Studio anders. Es lassen sich nicht nur einzelne Clips erstellen, sondern ganze Videos. Ein komplettes Filmstudio, das Videoeinstellungen, Voiceover, Geräuschen und Musik produziert – in einem Arbeitsgang mit nur einem Prompt, mit dem man beschreibt, was im Video geschehen soll.
Ein Schnelltest zum Einstieg
Ich bin gleich los gestartet mit „Create a story“, ohne groß ein Konzept vorzubereiten und ohne die voreingestellten Parameter zu verändern. Quick and dirty, also. Ich war neugierig, ob LTX-Studio die großen Versprechungen auch erfüllen kann.
Es folgt jetzt kein How-To für LTX-Studio, davon werden ausreichend viele auf Englisch und Deutsch auf YouTube angeboten. Zumal aus meiner ersten Erfahrung die Benutzung durchaus selbsterklärend ist.
Also habe ich LTX-Studio aufgefordert, ein Video über zwei Frauen zu erstellen, die im Wald Eierschwammerl (a.k.a Pfifferlinge) sammeln. Den vorgeschlagenen Charakteren habe ich nicht widersprochen.
In kurzer Zeit hat mir LTX-Studio acht Szenen mit jeweils drei bis vier Einstellungen vorgeschlagen. Wieder habe ich alle übernommen und keine der vielen Änderungsmöglichkeiten in Anspruch genommen.
Weiterbearbeiten einfach gemacht
Beim Export war ich dann positiv überrascht. Das Video lässt sich nicht nur als fixfertige mp4-Datei herunterladen. Die Video- und Audiodateien lassen sich auch als „Editing Package“ mit XML-Datei für Da Vinci Resolve (und Adobe Premiere) herunterladen. Das hat den Vorteil, dass ich alles als neues Projekt in Da Vinci Resolve importieren und dort weiterbearbeiten konnte – um zum Beispiel Untertitel einzufügen und den Text auf Deutsch zu ändern. Bei der fertigen mp4-Datei wäre das umständlicher.
Stichwort Untertitel: die sind unentbehrlich, wenn wir ein Video auf Social-Media-Plattformen hochladen. Das macht Da Vinci Resolve einfach (Timeline -> Untertitel von Audio erstellen…), mittlerweile sogar von deutschem Audio. Aber ich wollte deutsche Untertitel zum englischen Text, sogar eine deutschsprachige Version des Voiceover. Deshalb habe ich die Untertitel aus DaVinci Resolve im Format srt exportiert. Dann habe ich ChatGPT gebeten mir die Textdatei auf deutsch zu übersetzen. Und weil ChatGPT die Zeitmarken übernommen hat, musste ich die Daten nur in Da Vinci Resolve importieren und – weil die deutsche und die englische Version unterschiedlich lang sind – die Untertitelspur ein wenig nachbearbeiten.
Wenn keine Sprecherin greifbar ist …
Jetzt zur deutschen Voiceover-Version.
Ich hätte den Text natürlich selber einsprechen können, aber für dieses Video braucht es eine Sprecherin. Deshalb habe ich bei ElevenLabs vorbeigeschaut. Diese Sprach-Synthese-Anwendung ist für zehn Minuten Audio pro Monat in 32 Sprachen kostenlos. Dort habe ich Charlotte als Sprecherin ausgewählt und sie den übersetzten Text lesen lassen. Abspeichern, in Da Vinci Resolve eine neue Audiospur einfügen, die Audiodatei importieren und wieder die Länge anpassen. Fertig.
Das Ergebnis ist meiner Meinung nach durchaus überzeugend. Auch wenn Unzulänglichkeiten unübersehbar sind:
- der Weg im Wald ist nicht wirklich realistisch;
- mit Händen hat LTX-Studio, wie die meisten dieser Anwendungen, noch seine Probleme,
- die Konsistenz vor allem bei den Gesichtern der Protagonistinnen über die Szenen hinweg ist noch verbesserungsfähig,
- der Text passt nicht immer zum Bild,
- auch ein Artefakt hat sich eingeschlichen.
Ich bin mir ziemlich sicher, dass die Nachbearbeitung der Einstellungen in LTX-Studio vor dem Export und das Feinjustieren in Da Vinci Resolve die eine oder andere Verbesserung gebracht hätte. Das herauszufinden wird Aufgabe einer intensiveren Beschäftigung mit der Anwendung sein.
Fazit dieses Schnelltests:
Ich finde es beeindruckend, was schon die Beta-Version von LTX-Studio leistet: In Zusammenarbeit mit ChatGPT und ElevenLabs habe ich ein ein-Minuten-langes Video mit zwei Sätzen Text-Angabe (im Prompt) produziert – in kürzester Zeit. Ein Video ausschließlich mit kostenlosen KI-Anwendungen realisiert. Noch kann LTX-Studio Redakteur und Kameramann nicht das Wasser reichen. Aber wir sollten die Entwicklung aufmerksam verfolgen … und überlegen, wie wir diese Technologie sinnvoll in unserer Arbeit nutzen können.