Darf die KI mit fremder Stimme sprechen?

Künstliche Intelligenz

Stimmklang und Sprachgebrauch galten lange als unverwechselbare, individuelle Merkmale eines Menschen. Während früher allenfalls spezialisierte Imitatoren in der Lage waren, Stimmlagen anderer nachzuahmen, ermöglicht künstliche Intelligenz heute, Stimmen auf eine Weise zu klonen, die nicht mehr vom Original zu unterscheiden ist.

Technologien wie Text-to-Speech (TTS) und Voice Cloning finden bereits Anwendung in vielen Bereichen: von Sprachassistenten und Navigationssystemen bis hin zu Hörbüchern und in der Musikindustrie. Ein bekanntes Beispiel ist die TV-Serie „Obi-Wan Kenobi“, in der die Stimme von Darth Vader weiterhin von dessen originaler Synchronstimme James Earl Jones stammt – obwohl die Dialoge von einer KI erzeugt wurden. Oder die deutsche Serie „Pumuckl“, in der die Stimme des verstorbenen Hans Clarin durch den Kabarettisten Maximilian Schafroth nachgeahmt und dessen Stimme mittels KI so angepasst wird, dass sie wie Clarins unverwechselbare Stimme klingt.

Auch in der Unternehmenskommunikation wird mit Stimm-KI experimentiert. Mit ihrer Hilfe lassen sich Voiceovers für Videos erstellen und Podcasts sowie andere Audioformate beschleunigt produzieren. Darüber hinaus bietet sie praktische Funktionen wie Vorleseoptionen und Audiozusammenfassungen. So können Sprachbarrieren überwunden und Informationen zugänglicher gestaltet werden.

Auf der anderen Seite drohen Reputationsrisiken, beispielsweise wenn die Stimme des CEOs von einem Dritten für missbräuchliche Zwecke geklont wird, etwa in Form von Deepfakes. Spätestens hier stellen sich rechtliche Fragen: Wem gehören eigentlich die Rechte an KI-generierten Stimmen? Wie werden die Persönlichkeitsrechte der ursprünglichen Sprecher geschützt? Und ist die Verwendung von KI-generierten Stimmen straflos möglich?

Stimme ist Teil der eigenen Persönlichkeit

KI-generierte Stimmen basieren auf Deep-Learning-Algorithmen, die große Mengen an Sprachdaten analysieren. Diese Systeme lernen, menschliche Sprache durch das Training mit umfangreichen Datensätzen nachzuahmen und neue Sprachsequenzen zu erzeugen.

Die persönliche Stimmfarbe ist allerdings ein unverwechselbares Merkmal eines Menschen. Wir alle erkennen unsere Kollegen, Freunde und Partner anhand ihres individuellen Klangs. Deswegen erstreckt sich der Schutz des im Grundgesetz verankerten Persönlichkeitsrechts auch auf die Nutzung der eigenen Stimme.

Gerichte haben bereits entschieden, dass die unbefugte Nutzung einer Stimme eine Verletzung des Persönlichkeitsrechts darstellt. So urteilte der Bundesgerichtshof im Fall „Marlene Dietrich“ bereits im Jahr 1999, dass charakteristische Merkmale wie Stimme und Bild einer Person ohne deren Einwilligung nicht kommerziell genutzt werden dürfen.

Der geschädigte CEO kann also unter Berufung auf das Persönlichkeitsrecht gegen Fakes vorgehen. Andererseits lässt sich für die Unternehmenskommunikation, die selbst KI-generierte Stimmen nutzen will, Rechtssicherheit oftmals nur mittels individueller Lizenzverträge sicherstellen.

Urheber oder Straftäter?

Eine Frage dabei ist, ob die Nutzung von KI-generierten Stimmen als eine Art neu geschaffener Audio-Content gegen das Urheberrecht verstößt. Dieses schützt gemäß § 1 UrhG den Urheber in seinen geistigen und persönlichen Beziehungen zu seinem Werk. Um urheberrechtlich geschützt zu sein, muss ein Werk jedoch Schöpfungshöhe erreichen. Das bedeutet, dass eine individuelle Prägung und eine persönliche geistige Leistung des Schöpfers notwendig sind.

Da KI-Systeme autonom arbeiten und die erzeugte Stimme nicht direkt auf die kreative Leistung eines Menschen zurückzuführen ist, ist fraglich, ob diese Stimmen überhaupt urheberrechtlichen Schutz erlangen können. Entwickler programmieren zwar die KI, doch das finale Produkt entsteht durch die autonome Erzeugung – als Urheber scheiden die KI-Anbieter also aus. Nutzer wiederum können zwar die Wortwahl beeinflussen, nicht jedoch das Endergebnis, sodass auch sie in der Regel nicht als Urheber in Frage kommen. Insgesamt fehlt es daher regelmäßig an der notwendigen Schöpfungshöhe, um urheberrechtlichen Schutz zu genießen.

Einen weiteren gesetzlichen Schutz kann der eigene Sprachklang in der Datenschutz-Grundverordnung (DSGVO) finden. KI-Sprachsysteme wie Alexa und Siri erkennen ihre Nutzer anhand der Stimmfarbe. Es liegt daher nahe, sie als biometrisches Datum zu werten. In diesen Fällen bedarf die Verwendung der Stimme einer Einwilligung der betroffenen Person.


Lesen Sie auch:


Explizit strafbar ist die Verwendung von KI-Stimmen oder die Imitation fremder Stimmklänge derzeit übrigens nicht. Der strafrechtliche Schutz des gesprochenen Wortes nach § 201 StGB bezieht sich sinngemäß lediglich auf nicht für die Öffentlichkeit bestimmte private Gespräche. Da KI-Stimmen jedoch überwiegend für öffentliche Zwecke wie Sprachassistenten oder Medienproduktionen genutzt werden, findet diese Regelung hier keine Anwendung.

Lizenzen bieten Rechtssicherheit

Die Nutzung von KI zur Stimmenimitation birgt bislang noch einige rechtliche Herausforderungen und Unsicherheiten. Während einige Projekte die Zustimmung der betroffenen Personen oder ihrer Erben bedürfen, gibt es viele Fälle, in denen dies nicht notwendig ist. Für kommerzielle Zwecke sollte daher stets sichergestellt werden, dass entsprechende Lizenzen und Einwilligungen vorliegen, um rechtliche Auseinandersetzungen zu vermeiden.


Dieser Beitrag ist Teil der Themenreihe „How-to GenAI“, die sich mit dem Einsatz von generativer künstlicher Intelligenz in der Unternehmenskommunikation beschäftigt. Regelmäßig erscheinen an dieser Stelle Beiträge wechselnder Autor*innen zu theoretischen und praktischen Aspekten.