Wie KI bei der Podcast-Produktion hilft

Praxistipp

KOM: Inwieweit können KI-Tools bei der Produktion und beim Ausspielen eines Podcasts helfen?

Ich setze KI in jedem Schritt meiner Podcast-Produktion ein. Dabei baue ich vor allem auf weit verbreitete Generalisten wie Gemini und ChatGPT.

Vorbereitungsrecherche

Vor jeder Aufnahme lasse ich mich briefen. Für die Themenrecherche bieten sich drei Tools an: ChatGPT „Tiefe Recherche“ („Deep Research“) liefert starke Synthesen, besonders bei englischsprachigem Material. Googles Gemini 3.1 Pro arbeitet sich mit einem Kontextfenster von einer Million Tokens durch rund 1.500 Seiten Text. Claude wiederum folgt komplexen Anweisungen präzise und liefert mit seiner Recherche analytisch dichte, kompakte Reports. Ich nutze je nach Thema und Gast alle drei und lasse das Material von ChatGPT im Thinking-Modus oder Claude Opus destillieren.

Audioqualität retten

Adobe Podcast ist mehr als ein Tool zur Verbesserung der Aufnahme. Die Funktion „Sprache verbessern“ entfernt Rauschen, Hall und Nebengeräusche aus Sprachaufnahmen. Wie mächtig das ist, habe ich unfreiwillig getestet: Beim Gespräch mit dem Politikwissenschaftler Timo Lochocki streikte die Aufnahmesoftware. Wir stellten kurzerhand auf Whatsapp-Sprachnachrichten um. Das Rohmaterial klang entsprechend dünn. Adobe Podcast machte daraus eine trotzdem noch gut verwendbare Folge. Wer die Suite weiter erkunden will: Im Studio-Modus kann man aufnehmen und direkt über das Transkript schneiden. Einen Satz im Text löschen, und die zugehörige Stelle in der Tonspur verschwindet mit.


Lesen Sie auch:


Transkription

Ich lade die fertige MP3 in Googles AI Studio und prompte mit dem Modell Gemini 3 Flash: „Transkribiere diese Datei mit Timecodes und Sprecherrollenzuweisung.“ Die Fehlerquote bei deutschen Gesprächen ist gering. Lediglich einzelne Namen muss ich korrigieren.

Das Transkript ist Rohstoff für alles Weitere: Titel, Untertitel, Beschreibungstext, Shownotes, Timestamps. Alles per Prompt. Wer frühere Folgen als Stilvorlage mitschickt, bekommt konsistentere Ergebnisse.

Cover Art

Textwiedergabe in generierten Bildern war lange das Nadelöhr. Googles Nano Banana 2 und ChatGPT mit GPT Image 1.5 rendern Schrift heute sauber. Ich gebe Stil, Farbwelt und Textinhalt strukturiert als Prompt vor, lade ein Porträtfoto hoch und bekomme Kacheln zurück, die ich ohne Nachbearbeitung hochlade. Ein Tipp: maximal zwei Köpfe pro Bild, wenig Text, dafür so groß gesetzt, dass er auch in der kleinen Podcast-Kachel im Feed lesbar bleibt.

Dieser Beitrag erschien zuerst in der gedruckten Ausgabe #Medien. Das Heft können Sie hier bestellen.

Weitere Artikel