Mit KI ein Video erstellen

Künstliche Intelligenz

Die Aufnahmen wirken täuschend echt, die Personen bewegen sich natürlich und sprechen lippensynchron Deutsch – KI-generierte Videos sind auf Linkedin und Instagram bereits omnipräsent. Die rasch zunehmende Qualität der Ergebnisse macht Videogenerierung für die Kommunikation immer interessanter, doch die Vielzahl an Tools, neuen Updates und Funktionen ist jetzt schon überwältigend. Lassen Sie sich davon nicht abhalten und starten Sie mit einem Anwendungsbeispiel: einem Tutorial für die interne Kommunikation als kurzes, informatives Video mit Sprecher und eingeblendeten Bildern. Los geht’s.

1. Von der Idee zum Konzept

Welches Thema Sie vermitteln wollen, wissen Sie wahrscheinlich schon. Aber wie lässt es sich am besten als Video umsetzen? Lassen Sie sich inspirieren und bitten Sie ChatGPT, Claude oder Gemini um Vorschläge für ein passendes Konzept. Nutzen Sie einen datensicheren Zugang zum KI-Modell, damit Sie Zielstellung und Zielgruppe des Videos möglichst präzise beschreiben können. Je umfassender Ihr Prompt, umso passender sind die Vorschläge der KI.

Im Chat mit dem Sprachmodell können Sie aus der besten Umsetzungsidee gleich ein Video-Konzept formulieren lassen. Fordern Sie die KI ruhig etwas heraus, indem Sie sich weitere Vorschläge und punktuelle Änderungen wünschen, bis Ihnen das Konzept gefällt.

2. Vom Konzept zum Skript

Setzen Sie den Chat fort und bitten Sie das Sprachmodell, für das gewünschte Konzept ein Video-Skript zu erstellen. Prüfen Sie die Vorschläge der KI genau, achten Sie auf die Konsistenz und Kontinuität der Story. Die KI greift meist zu naheliegenden Metaphern und Bildideen, die Sie am besten durch eigene ersetzen. Behalten Sie dabei die technischen Limitierungen im Blick: Komplexe Kamerafahrten, längere Szenen und komplizierte Handlungen sind mit KI noch schwierig umzusetzen.

3. Vom Skript zum Storyboard

Wenn Sie ChatGPT nutzen, können Sie aus dem Skript direkt im Chat ein bebildertes Storyboard generieren. Das aktuelle Bildmodell von OpenAI versteht auch komplexe Vorgaben und eignet sich dank der Anbindung an das Sprachmodell besonders gut zur schnellen Storyboard-Erstellung. Andere Bildmodelle wie Midjourney produzieren teilweise hochwertigere Bilder, doch dafür müssen Sie das KI-Tool wechseln und jede Szene einzeln prompten. Ein weiterer Nachteil: Diese Bildmodelle können Szenen mit mehreren Elementen und Interaktionen noch nicht so gezielt umsetzen. Welches Tool Sie auch nutzen, seien Sie für Überraschungen offen und erwarten Sie kein perfektes Ergebnis.

 

Aus dem Skript …

… wird ein bebildertes Storyboard.

4. Standbilder generieren

Die Storyboard-Bilder sind Grundlage für die Standbilder (Stills), die im Video animiert werden sollen. Für das Tutorial sind das:

  1. Porträts für den Charakter, der als Sprecher, Sprecherin oder Avatar durch das Tutorial führt,
  2. Bildmaterial, das eingeblendet wird, um den gesprochenen Text zu illustrieren und das Thema zu veranschaulichen (B-Roll-Footage).

Welches KI-Tool für die Standbild-Generierung am besten geeignet ist, hängt vom gewünschten Stil und der Komplexität der Szenen ab:

  • ChatGPT kann gut Bilder im Comic-Stil umsetzen – mit hoher Konsistenz bei der Darstellung des Charakters.
  • Midjourney ist das Tool erster Wahl, wenn Sie sich fotorealistische Darstellungen und hochwertige Looks wünschen.
  • Stable Diffusion und Flux sind für anspruchsvollere Szenen geeignet und bieten die Möglichkeit lokaler Nutzung für besseren Datenschutz.
  • Adobe Firefly verspricht, dass die Urheberrechte der zum Training verwendeten Bilder geklärt sind. Den generierten Bildern merkt man das Stock-Material jedoch an.
  • Selbst skizzierte oder fotografierte Bilder können ebenfalls als Ausgangsbilder für das Video dienen. Für die Weiterverwertung mit KI müssen Sie die nötigen Nutzungsrechte haben.

5. Charaktere zum Sprechen bringen

Das Video lebt von den Charakteren, die durch das Tutorial führen und den Sprechtext vortragen. Für eine optimale Lippensynchronisation sollten die Sprecher-Charaktere auf den Standbildern möglichst frontal, mit Blickkontakt zur Kamera und einem neutralen Gesichtsausdruck abgebildet sein. Nutzen Sie für die Animation der Standbilder eine Video-KI, die Lippensynchronisierung beherrscht, wie Runway oder Hedra.

Hedra ist gerade eins der besten Video-Tools für natürlich wirkende Gestik und Mimik. Laden Sie das Bild des Charakters und den Sprechtext hoch, wählen Sie eine passende Stimme aus und generieren Sie die animierte Video-Sequenz. Noch überzeugender sind die Ergebnisse, wenn Sie den Text als Audiodatei hochladen: selbst eingesprochen oder mit einer Stimm-KI wie ElevenLabs erstellt. Wenn Sie dann eine in Hedra verfügbare Stimme darüberlegen, werden die Feinheiten der menschlichen Intonation aus dem Original übernommen und die Stimme wirkt noch menschlicher.

Runway funktioniert ähnlich gut, wenn Sie einen Umweg nehmen und nicht nur das Standbild und den Sprechtext hochladen. Animieren Sie zuerst das Bild ohne Ton – mit Runway oder einer anderen Video-KI wie Kling. Sie brauchen nur etwas Gestik und Mimik, neutral auf Sprechbewegungen reduziert. Das Video nutzen Sie als Referenz für die Lippensynchronisation. Runway kann, im Gegensatz zu anderen Video-Tools, zwischen zwei separaten Sprechenden unterscheiden. Außerdem bietet Runway die Möglichkeit, selbst aufgenommene Videos hochzuladen, mit denen die eigenen Gesichtsbewegungen auf die Charakter-Referenz aus einem Bild übertragen wird. Das erschafft eine natürliche Mimik.

Runway bietet die Möglichkeit, selbst aufgenommene Videos hochzuladen, mit denen die eigenen Gesichtsbewegungen auf die Charakter-Referenz aus einem Bild übertragen wird. Das erschafft eine natürliche Mimik. © Screenshot/Palmer Hargreaves

 

6. Weitere bewegte Bilder generieren

Für B-Roll-Footage, also Szenen, die den gesprochenen Text inhaltlich oder atmosphärisch unterstützen, eignen sich nahezu alle Video-Modelle. Das erstellte Standbild funktioniert meist als erster Frame des Videos. Einige KI-Tools erlauben zusätzlich, einen End-Frame zu definieren. Das ist hilfreich für animierte Loops oder interessante Übergänge und Kamerafahrten. Mein persönlicher Favorit ist zurzeit das Video-Tool Kling, aber Veo-3 von Google schafft neue Benchmarks und wird, sobald es überall verfügbar ist, in vielen Video-Workflows eine Rolle spielen

Der Workflow im Überblick. © Screenshot/Palmer Hargreaves

7. Video schneiden und bearbeiten

Die generierten Sequenzen verbinden Sie schließlich in einem Videoschnitt-Programm wie Premiere Pro von Adobe. Für schnelle Umsetzungen eignen sich auch Social-Media-Tools wie Canva. Mit Premiere Pro haben Sie die Möglichkeit, Videoclips mit generativer KI bis zu zwei Sekunden zu verlängern. Das ist praktisch, wenn durch die begrenzte Länge der generierten Sequenzen Lücken im Bildfluss entstehen.

Folgen Sie diesen Schritten und investieren Sie etwas Geduld, Flexibilität und Offenheit. Dann können Sie mithilfe künstlicher Intelligenz innerhalb weniger Stunden aus einer Idee Ihr eigenes Video erstellen – mit Bildern, die bewegen.


Weitere Praxistipps im Umgang mit künstlicher Intelligenz finden Sie auch in unserer Themenreihe How-to GenAI.

Weitere Artikel