Gibt es eine KI, die berühmte Stimmen klonen kann? Was Sie 2026 wissen müssen

1. März 2026

Gibt es eine KI, die berühmte Stimmen klonen kann? Was Sie 2026 wissen müssen

KI kann Aspekte einer berühmten Stimme aus einem kurzen Audioclip replizieren, manchmal in nur 15 Sekunden. Die Technologie ist so weit fortgeschritten, dass hochwertige Klone extrem überzeugend klingen können, und das Rohmaterial für berühmte Stimmen ist überall: Interviews, Filme, Podcasts und Abschlussreden.

Das ist nicht der schwierige Teil. Der schwierige Teil ist, dass Kalifornien, Tennessee und die EU in den letzten 18 Monaten Gesetze verabschiedet haben, die die Stimme einer Person als geschütztes Eigentum oder Persönlichkeitsrecht behandeln. Klonen Sie einen Prominenten ohne Zustimmung, verwenden Sie ihn in einem Video, und Sie riskieren nicht nur ein YouTube-Takedown. Sie setzen sich möglicherweise einer ernsthaften rechtlichen Haftung aus.

Ja, die Technik existiert. Nein, so einfach ist es nicht.

Die kurze Antwort: KI kann praktisch jede Stimme klonen, für die sie genügend Audiodaten hat, und für berühmte Stimmen gibt es reichlich öffentlich zugängliche Aufnahmen. Öffentliche Reden, Interviews, Filme und Podcasts. Das Rohmaterial ist überall.

Moderne Sprachklonmodelle analysieren Tonhöhe, Klangfarbe, Rhythmus und Sprachmuster aus Audioproben von nur 10 bis 15 Sekunden. Sie erzeugen synthetische Sprache, die den einzigartigen stimmlichen Fingerabdruck des Sprechers einfängt. In kontrollierten Tests fällt es Hörern oft schwer, zwischen originaler und synthetischer Sprache zu unterscheiden. Branchenberichte von 2025 beschrieben die Technologie als nahe an einer „Ununterscheidbarkeitsschwelle“ und merkten an, dass natürliche Intonation, Pausen und sogar Atemgeräusche nun überzeugend reproduziert werden können.

Das ist die Seite der Leistungsfähigkeit. Die Seite der Genehmigung ist der Punkt, an dem es kompliziert wird.

Die rechtliche Grenze, die die meisten nicht kommen sehen

Das Klonen der Stimme eines Prominenten ohne Zustimmung ist nicht nur ethisch fragwürdig. In einer wachsenden Zahl von Rechtsordnungen kann es rechtswidrig sein, insbesondere in kommerziellen Kontexten.

In den USA schützen Right-of-Publicity-Gesetze in Bundesstaaten wie Kalifornien, New York und Tennessee die Kontrolle einer Person über die kommerzielle Nutzung ihrer Stimme. Kaliforniens AB 1836, gültig seit Januar 2025, weitet diesen Schutz auf verstorbene Persönlichkeiten aus, was bedeutet, dass Sie die Stimme eines verstorbenen Schauspielers nicht ohne Erlaubnis seines Nachlasses für ein kommerzielles Projekt klonen können. Tennessees ELVIS Act geht noch weiter und deckt sowohl tatsächliche Aufnahmen als auch KI-generierte Nachbildungen ab.

Auf Bundesebene würde der vorgeschlagene NO FAKES Act die Erstellung oder Verbreitung einer KI-generierten Nachbildung der Stimme oder des Ebenbilds von Personen ohne Zustimmung rechtswidrig machen, mit begrenzten Ausnahmen für Satire, Parodie und Nachrichtenberichterstattung.

Der EU AI Act stuft bestimmte Anwendungen zum Klonen von Stimmen als hochriskant ein, was Transparenz und strenge Sicherheitsvorkehrungen erfordert. Dänemark hat seinen urheberrechtlichen Schutz geändert, um persönlichkeitsähnlichen Schutz auf die Stimmlichkeit auszuweiten, wobei der Post-Mortem-Schutz Jahrzehnte anhält.

Hier ist das Fazit: Wenn Sie die Stimme einer berühmten Person klonen und kommerziell nutzen, setzen Sie sich wahrscheinlich einer zivilrechtlichen Haftung und potenziell regulatorischen Strafen aus. Der vielbeachtete Streit von 2024 um eine Stimme, die Scarlett Johansson sehr ähnlich war, zeigte, wie schnell rechtliche und Reputationsrisiken eskalieren können. Der Gegenwind zwang das Unternehmen, die Stimme zurückzuziehen.

Wenn jemand nach „KI, die berühmte Stimmen klonen kann“ sucht, versucht er selten einen böswilligen Deepfake. Meistens wollen sie eines von drei Dingen:

Eine spezifische Stimmqualität. Sie wollen diesen tiefen, autoritären Erzählerton für Erklärvideos. Oder einen warmen, konversationsbetonten Stil für ein Podcast-Intro. Sie fühlen sich vom Klangprofil angezogen, nicht von der rechtlichen Identität dahinter.

Eine Charakterstimme für kreative Projekte. Spieleentwickler brauchen markante NPC-Stimmen. Hörbuchproduzenten brauchen einen Erzähler, der die Aufmerksamkeit über 10 Stunden Inhalt aufrechterhalten kann. Das Ziel ist emotionale Bandbreite und stimmlicher Charakter, nicht die Imitation einer realen Person.

Mehrsprachige Inhalte in einer konsistenten Stimme. Ersteller, die global expandieren, möchten, dass dieselbe Stimme Japanisch, Spanisch und Englisch natürlich spricht, ohne starke Akzent-Artefakte. Prominente Stimmen dienen oft als Qualitätsmaßstab.

Die gute Nachricht: Sie müssen keinen echten Prominenten klonen, um diese Ergebnisse zu erzielen. KI-Sprachplattformen bieten hochwertige, rechtlich sichere Alternativen, mit denen Sie Stimmen mit ähnlichen klanglichen Eigenschaften auswählen oder entwerfen können, ohne die Rechte anderer zu verletzen.

Über 2.000.000 Stimmen, null Unterlassungserklärungen

Hier beginnt die praktische Lösung.

Fish Audio verfolgt einen anderen Ansatz für das Problem der „berühmten Stimme“. Anstatt Nutzer dazu zu ermutigen, bestehende öffentliche Personen zu klonen, unterhält die Plattform eine Community-Sprachbibliothek mit über 200.000 Stimmen, die eine Reihe von Tönen, Stilen, Altern und Akzenten abdecken. Sie finden tiefe Bariton-Erzähler, energetische junge Moderatoren, ruhige Meditationsführer und Charakterstimmen, die von rauen Bösewichten bis hin zu fröhlichen Sidekicks reichen.

Der Unterschied: Jede Stimme in der Bibliothek ist entweder von Nutzern mit Zustimmung beigesteuert oder synthetisch generiert, was die Risiken für das Right-of-Publicity bei angemessener Nutzung reduziert.

Für Ersteller, die die spezifische Stimmqualität suchen, die sie an einer berühmten Stimme bewundern, fungiert die Bibliothek als Casting-Verzeichnis. Filtern Sie nach Sprache, Geschlecht, Ton und Stil. Hören Sie sich Proben an. Wählen Sie diejenige aus, die zu Ihrem Projekt passt. Der gesamte Prozess dauert Minuten, nicht Stunden oder Tage.

Wenn Sie tatsächlich Ihre eigene Stimme brauchen (geklont)

Manchmal reicht die Bibliothek nicht aus. Sie brauchen Ihre Stimme oder eine Stimme, für die Sie eine ausdrückliche Erlaubnis haben, die Inhalte spricht, die Sie nicht aufgenommen haben.

Das Klonen von Stimmen bei Fish Audio benötigt nur 10 Sekunden Referenzaudio, um einen Klon zu erstellen. Das ist weniger als die über 60 Sekunden, die viele Konkurrenten benötigen. Der Arbeitsablauf ist unkompliziert: Laden Sie eine saubere Audioprobe hoch, lassen Sie das Modell sie analysieren und generieren Sie innerhalb von Minuten neue Sprache.

Was es von einfachen Klonwerkzeugen unterscheidet, ist die Steuerbarkeit. Das S1-Modell von Fish Audio akzeptiert Emotions-Tags wie „(aufgeregt)“, „(flüstern)“ oder „(nervös)“, um die Wiedergabe pro Passage anzupassen. Eine einzelne geklonte Stimme kann in einem Absatz professionell und im nächsten warm klingen, ohne dass separate Aufnahmesitzungen erforderlich sind.

Diese Flexibilität wird in langformatigen Projekten entscheidend. Monotone Wiedergabe verringert das Engagement. Emotionale Bandbreite hält die Aufmerksamkeit aufrecht.

Der mehrsprachige Aspekt, der die Rechnung ändert

Hier wird der Unterschied zwischen dem „Klonen einer berühmten Stimme“ und dem „Aufbau einer Sprachstrategie“ deutlich.

Die meisten berühmten Stimmen sind in einer einzigen Sprache ikonisch. Ein bekannter englischer Erzähler lässt sich möglicherweise nicht natürlich ins Japanische, Spanische oder Arabische übertragen.

Fish Audio unterstützt derzeit 8 Sprachen mit natürlicher sprachübergreifender Leistung. Eine aus englischen Proben geklonte Stimme kann Chinesisch oder Japanisch sprechen, ohne die starken Akzent-Artefakte, die bei anderen Tools üblich sind. In der Praxis ermöglicht dies Erstellern, eine konsistente Markenstimme über Märkte hinweg beizubehalten, ohne für jede Region separate Synchronsprecher einzustellen.

Für Content-Teams, die Lokalisierungen durchführen, bedeutet dies eine erhebliche Reduzierung von Kosten und Zeit. Traditionelle mehrsprachige Voiceover für ein 10-minütiges Video in 5 Sprachen kosten in der Regel 2.000 bis 5.000 US-Dollar und dauern 1 bis 2 Wochen. KI-gestütztes mehrsprachiges TTS kann diesen Zeitrahmen auf Stunden zu einem Bruchteil der Kosten verkürzen.

Was ist mit langformatigen Inhalten? Story Studio schließt die Lücke.

Kurze Clips und Social-Media-Voiceover sind eine Sache. Die Produktion eines 6-stündigen Hörbuchs oder einer kompletten Podcast-Staffel ist eine andere.

Fish Audios Story Studio ist für die Langform-Produktion konzipiert. Es fungiert als Werkbank, auf der Sie verschiedenen Charakteren unterschiedliche Stimmen zuweisen, Tempo und Emotionen über Kapitel hinweg steuern und Dateien exportieren können, die den technischen Spezifikationen von ACX und Audible entsprechen.

Für unabhängige Autoren und kleine Verlage, die sich keine 3.000 bis 10.000 US-Dollar pro fertiger Stunde professioneller Erzählung leisten können, verschiebt dies die Hörbuchproduktion von „irgendwann“ auf „dieses Quartal“.

Das System der Emotions-Tags ist bei langformatigen Inhalten besonders wichtig. Ein Erzähler, der auf Seite 1 und Seite 300 identisch klingt, riskierte den Verlust des Hörer-Engagements. Story Studio ermöglicht eine Feinabstimmung Szene für Szene, ähnlich wie es professionelle Hörbuchregisseure mit menschlichen Erzählern tun, aber ohne den Studio-Overhead.

Das ethische Playbook: Wie man Sprach-KI nutzt, ohne Grenzen zu überschreiten

Sprachklon-Technologie ist leistungsstark, und die Versuchung, eine berühmte Stimme zu replizieren, ist real. Nachhaltige Ersteller und Unternehmen neigen dazu, einen konsistenten Satz von Praktiken zu befolgen:

PraktikWarum es wichtig ist
Klonen Sie nur Stimmen, die Sie besitzen oder für die Sie eine schriftliche Zustimmung habenVermeidet Right-of-Publicity-Ansprüche und potenzielle Betrugsvorwürfe
Nutzen Sie Sprachbibliotheken für „inspirierte“ StimmstileErzielen Sie die gewünschte Qualität ohne Risiko von Imitation oder rechtlicher Haftung
Kennzeichnen Sie KI-generierte Audioinhalte in veröffentlichten InhaltenSchafft Vertrauen und erfüllt aufkommende Transparenzgesetze
Führen Sie Dokumentationen zur Zustimmung und Aufzeichnungen zur Audio-HerkunftSchützt vor Streitigkeiten oder regulatorischer Überprüfung

Der EU AI Act, Chinas Kennzeichnungsregeln für KI-Inhalte (gültig ab September 2025) und vorgeschlagene US-Gesetze deuten alle in dieselbe Richtung: Synthetische Stimmen werden eine Offenlegung erfordern. Die Vorbereitung auf die Einhaltung dieser Regeln ist jetzt wesentlich einfacher als die spätere Nachrüstung von Richtlinien.

Für Entwickler: Der API-Weg

Wenn Sie eine App, ein Spiel oder ein Kundenservice-System entwickeln, das Sprachgenerierung in großem Maßstab benötigt, bietet die API von Fish Audio Latenzzeiten im Millisekundenbereich mit Streaming-Unterstützung. Das ist schnell genug für Echtzeit-Konversationsagenten, Dialoge im Spiel und interaktive Sprachantwortsysteme.

Die API unterstützt dieselben Emotions-Tags und mehrsprachigen Funktionen wie das Verbraucherprodukt, was die Notwendigkeit verringert, mehrere Anbieter zu integrieren. Die Preisgestaltung beginnt mit einer kostenlosen Stufe und skaliert nach Nutzung.

Zur Einordnung: Das Open-Source-Modell von Fish Audio, Fish Speech V1.5, wurde 2026 unter die Top 3 der Open-Source-Sprachmodelle gewählt und erreichte in unabhängigen TTS-Arena-Evaluierungen einen ELO-Score von 1339. Die kommerzielle Plattform baut auf diesem Fundament auf und fügt weitere Leistungsoptimierungen und Unternehmenssupport hinzu.

Fazit

Kann KI berühmte Stimmen klonen? Technisch gesehen, ja. Rechtlich und ethisch handelt es sich um ein sich schnell verschärfendes regulatorisches Umfeld.

Der klügere Schachzug für Ersteller, Entwickler und Unternehmen ist es, die Frage von „Kann ich die Stimme dieses Prominenten klonen?“ zu „Kann ich eine Stimme finden oder erstellen, die die gleiche Wirkung erzielt?“ zu verschieben. Mit Bibliotheken von über 2.000.000 Stimmen, 10-Sekunden-Sprachklonen, emotionsgesteuerter Wiedergabe und mehrsprachiger Ausgabe sind die Werkzeuge dafür bereits vorhanden.

Die Stimme, die Sie brauchen, muss nicht berühmt sein. Sie muss nur Ihrem Projekt dienen.

Beginnen Sie mit der Erkundung auf fish.audio oder tauchen Sie in die API-Dokumentation ein, wenn Sie etwas Technischeres entwickeln.

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Haben Sie bereits ein Konto? Einloggen

Diesen Artikel teilen


Kyle Cui

Kyle CuiX

Kyle is a Founding Engineer at Fish Audio and UC Berkeley Computer Scientist and Physicist. He builds scalable voice systems and grew Fish into the #1 global AI text-to-speech platform. Outside of startups, he has climbed 1345 trees so far around the Bay Area. Find his irresistibly clouty thoughts on X at @kile_sway.

Mehr von Kyle Cui lesen >

Neueste Artikel

Alle anzeigen >