Auf Apple Podcast lassen sich 2,74 Millionen Podcasts anhören, Stand Oktober 2024. Zwischen drei und mehr als vier Millionen sollen es weltweit sein. Wie viele davon in welchem Ausmaß mit KI-Anwendungen produziert wurden, lässt sich schwer sagen. Nachvollziehbare Zahlen sind nicht zu finden. Ich habe mich auf ein Experiment eingelassen und eine Podcast-Episode komplett mit KI-Tools erstellen zu lassen. Das Fazit in aller Kürze: Der Technologie-Interessierte in mir ist fasziniert. Dem Desinformationsaufklärer in mir (hier und hier) stehen die Haare zu Berge. Der (gelegentliche) Podcaster und Journalist in mir sagt, dass die stimmliche und inhaltliche Performance der Algorithmen nicht überzeugend ist. Noch nicht.
Aber von Anfang an …
Ein KI-Experiment und seine Entstehung.
Am Anfang stand die Lektüre eines Artikels von NiemanLabs. Darin geht es um die spannende Frage, ob die professionellen Werte von Journalistinnen und Journalisten, mit denen sie ihre Arbeit gestalten, auch mit jenen Werten übereinstimmen, die ihre Rezipientinnen und Rezipienten von journalistischer Berichterstattung erwarten. Grundlage für diesen Artikel ist eine Studie aus Chile, in der Wissenschafterinnen und Wissenschafter genau dieser Frage nachgingen. Die Ergebnisse der Studie sind sicherlich nicht auf die österreichische Medienlandschaft übertragbar. Die Fragestellung ist aber – auch aufgrund des Vertrauensverlustes in den Journalismus – für uns relevant. Eine gute Voraussetzung für eine weitere Episode meines Podcasts im Journalismusblog auf dieser Website. Eigentlich.
Dann kam mir nämlich die Idee diese Episode nicht selber zu produzieren, sondern sie von KI-Anwendungen erstellen zu lassen. Um all das, was ich in den vergangenen Tagen über neue KI-Anwendungen gelesen und auf YouTube gesehen hatte, in einem praktischen Projekt auszuprobieren.
Recherchieren lassen nach kurzem Briefing
Als erstes loggte ich mich bei StormAI ein, einem neuen und kostenlosen „KI-getriebenen System zur Wissenskuratierung“ der Stanford University. Mit dem folgendem Prompt schickte ich die Anwendung auf Recherche:
„How do the professional values of public-service-journalists differ from what their recipients expect from public-service-journalism?”
In kürzester Zeit erstellte Storm ein Dokument, das ich als siebenseitiges PDF auf meinem Computer sicherte. Die Anwendung wertete dabei 15 verschiedenen Quellen zum Thema aus. Sie stammen auch von einschlägigen Institutionen, wie dem Pew Research Center (ein nichtstaatliches Meinungsforschungsinstitut mit Sitz in Washington), NPR (National Public Radio) und ISOJ (International Symposium on Online Journalism) und SPJ (Society of Professional Journalists). Alle Quellen sind mit Links zu den Dokumenten zitiert. Der Prozess, wie der Artikel zustande gekommen ist, lässt sich aufrufen und nachvollziehen.
Dann stellte ich ChatGPT dieselbe Frage, inklusive einer Nachfrage:
„Gibt es bereits wissenschaftliche Erkenntnisse, die diese Diskrepanz zwischen den professionellen Werte, die Journalisten befolgen, und den Erwartungen, die Rezipienten an die journalistische Arbeit haben?“
Erst bei der Antwort auf die Nachfrage hat ChatGPT die Quellen genannt, aus denen es zitiert hat. Das Dokument habe ich als vierseitiges PDF abgespeichert.
Die Rechercheergebnisse auswerten lassen
Anschließend öffnete ich Googles NotebookLM. Die Anwendung bietet laut Eigendefinition „eine personalisierte KI-Unterstützung, die Ihnen dabei hilft, bestmögliche Denkergebnisse zu erzielen. Nachdem Sie Ihre Dokumente hochgeladen haben, kann NotebookLM sofort Fragen zu ihnen beantworten. Sie können die Quellen lesen, Notizen erstellen und gemeinsam mit NotebookLM Ihre Ideen verfeinern und organisieren. NotebookLM steht allen Nutzern ab 18 Jahren in den mehr als 180 Regionen zur Verfügung, in denen die Gemini API verfügbar ist.“
Google Labs hat mit NotebookLM also ein Online-Tool für Recherchen und Notizen entwickelt, das künstliche Intelligenz (KI), insbesondere Google Gemini, einsetzt, um Nutzer bei der Interaktion mit ihren Dokumenten zu unterstützen. Es ermöglicht auch die Dokumente akustisch in einem podcastähnlichen Format zusammenfassen.
Genau das habe ich vor. Zuerst habe ich in einem neuen Notebook die beiden PDF-Dokumente hochgeladen. Zusätzlich habe ich per URL noch vier weitere einschlägige Quellen hinzugefügt (siehe Screenshot rechts).
„Deep Dive“ soll er heißen
Dann verarbeitete NotebookLM die angeführten Quellen recht rasch zu einer Podcast-Episode mit zwei Hosts (männlich und weiblich) in deutscher Sprache. Das muss der Anwendung im Dialogfeld „Anpassen“ explizit aufgetragen werden. Ich habe zwei Versionen erstellen lassen. Trotz identer Quellen ist eine Version etwas länger als sieben Minuten; die zweite ist fast 22 Minuten lang. Letztere habe ich als Podcast-Episode ausgewählt.
Jeder Podcast braucht einen Namen. In jeder Podcast-Variante von NotebookLM war vom „Deep Dive“ die Rede, vom tiefen Eintauchen in das Thema. Daher erschien mir der Podcast-Titel „Deep Dive“ naheliegend, den Zusatz „Der Podcast, der tief eintaucht in die wichtigen Themen der Zeit“ habe ich hinzugefügt, um die Richtung des „diskursiven Tiefgangs“ anzugeben.
KI für das Akustische
Jeder Podcast braucht auch ein akustisches Intro und ein Outro. Um nicht langwierig kostenlose Musik dafür zu suchen, die noch dazu in vielen andern Produktionen auch vorkommt, eben weil sie kostenlos ist, habe ich auf ein KI-Kompositionstool zurückgegriffen. Suno erstellte rasch und kostenlos ein Instrumentalstück. Der Prompt lautete:
“Create a short 15 seconds long intro to a podcast that deals with deep dives into relevant topics for the audience”
Die geforderte Länge ignorierte Suno geflissentlich. Von den beiden angebotenen Varianten war die mit 2:26 brauchbar.
Callum, Ferdinand und Nina
Ach ja, der Podcast Titel „Deep Dive. Der Podcast, der tief eintaucht in die wichtigen Themen der Zeit“ musste noch eingesprochen werden. Auch die KI-Gastgeber, im Podcast-Deutsch „Host“ und „Hostin“ genannt, mussten Namen bekommen. Auch das sollte eine KI übernehmen. Die Wahl fiel nach einigem Probieren auf Callum, eine männliche im Multilingual-V2-Modell von ElevenLabs.
Die Audiodateien von NotebookLM, Suno und ElevenLab habe ich in die kostenlose Audiobearbeitung Audacity geladen und zur endgültigen Podcast-Episode verarbeitet:
Artwork aus der KI-Werkstatt
Als Fleißaufgabe habe ich für die Shownotes auf Tensor mit dem Flux-dev-Modell ein fotorealistisches Bild der Moderatorin und des Moderators erstellen lassen. Der Prompt lautet:
„A young, good-looking woman and a middle-aged man are sitting opposite each other at a round table. There is a microphone on the table in front of both the man and the woman. The two are recording a podcast. The cables of the microphones are fed through a hole in the middle of the table. The man and woman are leaning on the table with their forearms. Each is holding a piece of written paper. The paper is bent inwards so that we cannot see what is written on it. Acoustic elements are attached to the wall in the background. We are in a podcast studio. The two people appear relaxed but are focused on their conversation.“
Das Bild sollte die Gestaltungskriterien „masterpiece, best quality, photorealistic, extremely detailed, HD resolution“ befolgen.
Das Ergebnis ist doch recht überzeugend. Auch wenn der Mann nicht gerade aussieht, als sei er mittleren Alters. Und auch die Vorgabe, beide sollten Papier in Händen halten, wurde nicht umgesetzt. Die Akustikpaneele an der Wand verorten uns aber folgerichtig in einem Podcast-Studio.
Mit Flux dev, dem Open-Source-Text-zu-Bild-KI-Modell mit 12 Milliarden Parametern von Black Forest Labs habe ich auch das Beitragsbild dieses Eintrags und das Cover-Foto für die Podcast-Episode erstellt. Die mp3-Datei habe ich übrigens auf der kostenlosen Plattform audio.com deponiert und mit dem dort erzeugten embed-Code in WordPress eingebettet.
Fazit des Experiments
Der technische Workflow zusammengefasst: Mit fünf KI-Anwendungen habe ich mit 19 Wörtern Vorgabe eine Podcast-Episode in der Länge von 22 Minuten mit Bildelementen für die Shownotes erstellt. In kurzer Zeit.
Der Produktionsprozess hat Spaß gemacht. Die Podcast-Episode, die NotebookLM aus den beiden Dokumenten von Storm und ChatGPT sowie den übrigen Quellen erstellt hat, ist durchaus eindrucksvoll. Aber sie ist noch weit weg von einer Podcast-Episode, die ich mit einer Hostin aus Fleisch und Blut zu dem Thema gemacht hätte.
Warum?
Die gestalterischen Unzulänglichkeiten möchte ich nur erwähnen: zur Hälfte der Episode taucht – Überraschung! – ein dritte Stimme auf, dies sich am Dialog der beiden Hosts beteiligt. Die war in den Anforderungen nicht vorgesehen. Gerade im letzten Drittel der Datei lässt die Konsistenz der Sprechrstimmen zu wünschen übrig. Und die beiden KI-Gastgeber wirken in ihrer Sprache immer wieder als hätten sich Englisch muttersprachlichen Hintergrund. Sie sprechen Begriffe immer wieder englisch aus und lassen bei manchen Wörtern einen englischsprachigen Akzent hören.
Vor allem aber will ich mir als Gestalter einer Podcast-Episode nicht von Algorithmen, deren Funktionsweise ich auch nicht annähernd kenne und verstehe, abnehmen lassen. Für das inhaltliche Ergebnis ist die Auswahl und die Bewertung der Quelle von essenzieller Bedeutung – wie bei jedem journalistischen Beitrag, den ich verfasse. Nun habe ich NotebookLM doch einige Quellen vorgegeben. Aber die Recherche von StormAI und ChatGPT waren für mich eben nicht deutlich genug nachvollziehbar.
Das gilt auch für die Aufbereitung des Quellenmaterials für die Podcast-Episode, für die Argumentationslinie, für die Spannungskurve, die die Zuhörerinnen und Zuhörer in der Episode hält.
Alles in allem ist es faszinierend, was KI-Anwendungen schon im Stande sind zu leisten. Ich möchte KI im journalistischen Arbeitsprozess gar nicht verdammen. Nein, Teilaufgaben, wie Transkripte aus Audiodateien erstellen u.a., helfen Zeit sparen (auch wenn die Transkripte vor der Veröffentlichung unbedingt kontrolliert werden müssen). Für Podcaster, die keine Erfahrung mit Audiotechnik haben, die keine Ausrüstung wie Mikrofone zur Verfügung haben, die unerfahren im Verfassen von Texten zum Sprechen sind, die keine Sprecherfahrung vor dem Mikrofon haben – für die mag es durchaus reizvoll sein ein ausgearbeitetes Skript von KI-generierten Stimmen sprechen zu lassen. Diese Stimmen werden immer überzeugender.
Aber eine Podcast-Episode von KI-Anwendungen erstellen zu lassen – wenn sie wohlgemerkt journalistische Standards erfüllen soll -, das ist für mich ein no go. Daran hat auch dieses Experiment nichts geändert.
Abschließend noch der Appell: Alle Elemente, die mithilfe von KI generiert wurden – nicht nur in journalistischer Berichterstattung – müssen als KI-generiert gekennzeichnet werden. Das sind wir unserem Publikum schuldig.
Zuerst bin ich einmal total beeindruckt, dass eine KI so einen professionellen Podcast erstellen kann. Vom Inhalt, den die Figuren diskutieren, habe ich eigentlich auch nicht viel auzusetzen. Dass im Grunde der KI aber genau das fehlt, was vorgeschlagen wird, nämlich volle Transparenz bezüglich der Quellen, ist natürlich die Ironie an der Geschichte.
Ich habe im letzten Jahr auch mit KI experimentiert bezüglich Recherche und Texterstellung im Printbereich. Bei der Recherche hatte ich zum Teil sehr verblüffende, bereichernde Ergebnisse, und zum Teil welche, die einfach völlig falsch waren, obwohl der Prompt einfach war. (Wie viele öffentliche Bibliotheken und Büchereien gibt es im Bundesland Tirol?) Was die Textgestaltung angeht, waren praktisch alle Versuche unbrauchbar. Selbst die Idee, wenigstens ein paar Bausteine zu verwenden, habe ich wieder verworfen. Die Texte waren fad, lieblos, sich oft wiederholend (wohl um die geforderten Längen zu erreichen).