KOM: Inwieweit können KI-Tools bei der Produktion und beim Ausspielen eines Podcasts helfen?
Ich setze KI in jedem Schritt meiner Podcast-Produktion ein. Dabei baue ich vor allem auf weit verbreitete Generalisten wie Gemini und ChatGPT.
Vorbereitungsrecherche
Vor jeder Aufnahme lasse ich mich briefen. Für die Themenrecherche bieten sich drei Tools an: ChatGPT „Tiefe Recherche“ („Deep Research“) liefert starke Synthesen, besonders bei englischsprachigem Material. Googles Gemini 3.1 Pro arbeitet sich mit einem Kontextfenster von einer Million Tokens durch rund 1.500 Seiten Text. Claude wiederum folgt komplexen Anweisungen präzise und liefert mit seiner Recherche analytisch dichte, kompakte Reports. Ich nutze je nach Thema und Gast alle drei und lasse das Material von ChatGPT im Thinking-Modus oder Claude Opus destillieren.
Audioqualität retten
Adobe Podcast ist mehr als ein Tool zur Verbesserung der Aufnahme. Die Funktion „Sprache verbessern“ entfernt Rauschen, Hall und Nebengeräusche aus Sprachaufnahmen. Wie mächtig das ist, habe ich unfreiwillig getestet: Beim Gespräch mit dem Politikwissenschaftler Timo Lochocki streikte die Aufnahmesoftware. Wir stellten kurzerhand auf Whatsapp-Sprachnachrichten um. Das Rohmaterial klang entsprechend dünn. Adobe Podcast machte daraus eine trotzdem noch gut verwendbare Folge. Wer die Suite weiter erkunden will: Im Studio-Modus kann man aufnehmen und direkt über das Transkript schneiden. Einen Satz im Text löschen, und die zugehörige Stelle in der Tonspur verschwindet mit.
Lesen Sie auch:
- In eigener Sache: KOM startet Podcast „Unter eins“
- Drei Tipps für einen effizienten Podcast-Workflow
- Wie lockert man Interview-Podcasts auf?
Transkription
Ich lade die fertige MP3 in Googles AI Studio und prompte mit dem Modell Gemini 3 Flash: „Transkribiere diese Datei mit Timecodes und Sprecherrollenzuweisung.“ Die Fehlerquote bei deutschen Gesprächen ist gering. Lediglich einzelne Namen muss ich korrigieren.
Das Transkript ist Rohstoff für alles Weitere: Titel, Untertitel, Beschreibungstext, Shownotes, Timestamps. Alles per Prompt. Wer frühere Folgen als Stilvorlage mitschickt, bekommt konsistentere Ergebnisse.
Cover Art
Textwiedergabe in generierten Bildern war lange das Nadelöhr. Googles Nano Banana 2 und ChatGPT mit GPT Image 1.5 rendern Schrift heute sauber. Ich gebe Stil, Farbwelt und Textinhalt strukturiert als Prompt vor, lade ein Porträtfoto hoch und bekomme Kacheln zurück, die ich ohne Nachbearbeitung hochlade. Ein Tipp: maximal zwei Köpfe pro Bild, wenig Text, dafür so groß gesetzt, dass er auch in der kleinen Podcast-Kachel im Feed lesbar bleibt.
Dieser Beitrag erschien zuerst in der gedruckten Ausgabe #Medien. Das Heft können Sie hier bestellen.