Zeitlich begrenztes Angebot- 50% RABATT JÄHRLICHEinlösen
13. Juni 2026ANLEITUNG

AI Voice Design: Erstellen Sie eine benutzerdefinierte Stimme mit einem einzigen Text-Prompt

AI Voice Design: Erstellen Sie eine benutzerdefinierte Stimme mit einem einzigen Text-Prompt

Beschreiben Sie eine Stimme mit einfachen Worten und Voice Design von Fish Audio generiert sie in etwa 15 Sekunden. Erstellen Sie benutzerdefinierte AI-Charakterstimmen — kostenlos während der Einführungsphase.

Sie benötigen eine Stimme, die es noch nicht gibt. Vielleicht ist es ein sarkastischer Roboter-Sidekick für Ihr Spiel, ein warmer Erzähler für Ihre Dokumentation oder ein Late-Night-Radio-Moderator für Ihr Podcast-Intro. Das Durchsuchen von Stimmenbibliotheken liefert Ihnen immer die gleichen hundert Stimmen, die alle anderen auch verwenden, und das Voice Cloning erfordert, dass eine echte Person zuerst Aufnahmen macht.

Voice Design löst dies anders. Ab sofort auf Fish Audio verfügbar, ermöglicht es Ihnen, eine völlig originelle, benutzerdefinierte AI-Stimme zu erstellen, indem Sie sie in einfachem Text beschreiben — Alter, Geschlecht, Akzent, Tonfall, Tempo, Stimmung — und diese Beschreibung in etwa 15 Sekunden in ein nutzbares Sprachmodell verwandelt. Keine Aufnahmen, keine Synchronsprecher, kein Durchforsten von Bibliotheken.

Während der Einführungsphase ist die Stimmen-Generierung mit Voice Design völlig kostenlos (normalerweise 2.000 Credits pro Generierung).

Probieren Sie Voice Design jetzt aus →


Was ist AI Voice Design?

AI Voice Design ist der Prozess der Erstellung einer benutzerdefinierten, originellen synthetischen Stimme aus einer schriftlichen Beschreibung anstelle eines Audio-Samples. Sie geben einen Prompt ein, der beschreibt, wie die Stimme klingen soll — zum Beispiel „ein warmer, leicht rauer Erzähler mittleren Alters mit einem sanften amerikanischen Akzent“ — und die KI generiert eine brandneue Stimme, die dieser Beschreibung entspricht und sofort für Text-to-Speech bereit ist.

Dies unterteilt Voice Design grundlegend von Voice Cloning, bei dem die Stimme einer existierenden Person aus Aufnahmen repliziert wird. Mit Voice Design hat die von Ihnen erstellte Stimme noch nie zuvor existiert — niemand sonst verwendet sie, nirgendwo.


So erstellen Sie Ihre eigene AI-Stimme mit Voice Design (Schritt für Schritt)

Sie fragen sich, wie man eine AI-Stimme aus nichts als einer Beschreibung erstellt? Hier ist der komplette Workflow, von Anfang bis Ende. Gehen Sie auf die Seite „Stimme erstellen“ und wählen Sie Voice Design.

Fish Audio Seite „Stimme erstellen“ mit den Optionen Instant Voice Clone, Voice Design und Professional Voice Clone

Schritt 1: Beschreiben Sie die gewünschte Stimme

Fish Audio Voice Design Benutzeroberfläche — beschreiben Sie die gewünschte AI-Stimme in einfachem Text

Schreiben Sie in das Beschreibungsfeld die Stimme auf, die Sie sich vorstellen. Je spezifischer, desto besser. Decken Sie diese Dimensionen ab:

  • Alter & Geschlecht — „eine Frau Ende 30“
  • Akzent — „sanfter amerikanischer Akzent“, „leichter britischer Einschlag“
  • Tonfall & Textur — „heiser“, „hell“, „leicht rau“
  • Tempo — „entspannt und ruhig“, „schnell und energetisch“
  • Stimmung & Kontext — „als ob sie zu einem einzelnen Zuhörer in einem ruhigen Raum sprechen“

Nicht sicher, wo Sie anfangen sollen? Nutzen Sie einen der integrierten Starter-Prompts, wie z. B. einen warmen Late-Night-Radio-Moderator, Dokumentarfilm-Erzähler oder Märchenerzähler — und passen Sie ihn von dort aus an.

Sie können auch optionalen Vorschautext hinzufügen (das Skript, das Ihre Samples sprechen werden), oder das Feld leer lassen, damit das System ein kontextbezogenes Sample für Sie schreibt. Wenn Sie bereit sind, klicken Sie auf Samples generieren. Die Generierung kostet normalerweise 2.000 Credits, ist aber während der Einführungsphase kostenlos.

Schritt 2: Vergleichen Sie zwei generierte Stimmsamples und wählen Sie eines aus

Auswahl zwischen zwei generierten AI-Stimmsamples in Fish Audio Voice Design

Voice Design generiert zwei verschiedene Stimmsamples basierend auf Ihrem Prompt. Spielen Sie beide ab, vergleichen Sie sie und wählen Sie das passende aus. Nicht ganz richtig? Passen Sie Ihre Beschreibung an und klicken Sie auf Samples neu generieren — Iterationen kosten während des Launch-Zeitraums nichts, also verfeinern Sie die Stimme, bis sie genau so klingt, wie Sie es sich vorstellen.

Schritt 3: Speichern Sie es als Ihr eigenes Sprachmodell

Speichern eines benutzerdefinierten AI-Sprachmodells mit Stimmdetails in Fish Audio

Klicken Sie auf Weiter und verwandeln Sie Ihr gewähltes Sample in ein wiederverwendbares Sprachmodell:

  • Name und Cover — geben Sie Ihrer Stimme eine Identität
  • Tags — Geschlecht, Alter, Stimmstil (warm, sanft, tief, hauchig...)
  • Anwendungsfälle — Konversation, Erzählung, Charakterstimme, Social Media, Bildung, Werbung oder Unterhaltung

Einstellen der Sichtbarkeit der AI-Stimme auf öffentlich, nicht gelistet oder privat in Fish Audio

Wählen Sie dann aus, wer sie nutzen kann:

  • Öffentlich — auf der Entdeckungsseite für jeden sichtbar und nutzbar
  • Nicht gelistet — vor der Suche verborgen, über Direktlink teilbar
  • Privat — nur für Sie sichtbar

Bestätigen Sie, dass die Stimme keine reale, identifizierbare Person imitiert, klicken Sie auf Stimme erstellen, und schon sind Sie fertig. Ihre benutzerdefinierte AI-Stimme befindet sich nun in Ihrer Bibliothek, bereit für jedes Text-to-Speech-Projekt — und mit den Inline-Tags auf Wortebene von S2 können Sie genau steuern, wie jede Zeile vorgetragen wird.

Starten Sie mit einem Starter-Prompt → — die Generierung ist während der Einführungsphase kostenlos.


So schreiben Sie bessere Voice Design Prompts

Die Qualität Ihrer Stimme hängt von der Qualität Ihrer Beschreibung ab. Hier ist der Unterschied zwischen einem generischen Ergebnis und einem perfekten.

Nehmen wir diesen Starter-Prompt:

„Ein warmer, intimer Late-Night-Radio-Moderator Ende 30 mit einer sanften, heiseren Stimme. Entspanntes, ruhiges Tempo mit gelegentlichem sanftem Kichern, als ob sie zu einem einzelnen Zuhörer in einem ruhigen Raum sprechen.“

Beachten Sie, was dieser Prompt bewirkt:

  1. Verankert eine Persona („Late-Night-Radio-Moderator“) — eine Rolle, die das Modell sofort charakterisieren kann, was kraftvoller ist als das Auflisten von zehn Adjektiven.

  2. Kombiniert konkrete Stimmqualitäten („sanft, heiser“) — Texturwörter sind besser als vage Begriffe wie „nett“ oder „gut“.

  3. Spezifiziert die Sprechweise („entspanntes, ruhiges Tempo mit gelegentlichem sanftem Kichern“) — Tempo und Eigenheiten erwecken eine Stimme zum Leben.

  4. Setzt den Kontext („zu einem einzelnen Zuhörer in einem ruhigen Raum sprechen“) — Kontext schafft Intimität und Energie besser als jedes einzelne Adjektiv.

Schwacher Prompt: „Eine weibliche Stimme, angenehm und klar.

Starker Prompt: „Eine fröhliche Reiseleiterin in ihren 20ern mit einem hellen australischen Akzent, schnellem, verspieltem Tempo, klingt immer so, als würde sie gerade lächeln.

Eine Persona, drei oder vier sensorische Details, eine Szene. Das ist die Formel.


Ein Charakter-Stimmen-Generator für originelle Charaktere

Wenn Sie Charaktere erstellen — für Spiele, Animationen, Hörbücher, Hörspiele oder virtuelle Begleiter — fungiert Voice Design als Charakter-Stimmen-Generator mit einem entscheidenden Vorteil: Jede Stimme ist ein Original.

Stimmen aus Bibliotheken werden von Tausenden von Nutzern geteilt; Ihr Bösewicht sollte nicht wie die Meditations-App eines anderen klingen. Das Klonen der Stimme einer echten Person für einen fiktiven Charakter wirft Fragen der Zustimmung und Lizenzierung auf. Eine designten Stimme umgeht beides — eine Stimme, die für Ihren Charakter entwickelt wurde, ohne dass die Ähnlichkeit einer realen Person dahintersteckt.

Ein paar Prompt-Ideen zur Inspiration — von bodenständig bis hin zu völlig fantastisch:

  • „Ein uralter, kiesiger Drache mit einer langsamen, grollenden Sprechweise und theatralischer Bedrohlichkeit“
  • „Ein hyperaktiver männlicher Teenie-Erfinder, Schnellsprecher, Stimme bricht leicht bei Aufregung“
  • „Eine gelassene ältere Bibliothekarin mit flüsterleisem Tonfall und bedächtigen Pausen“
  • „Ein knallharter Detektiv in seinen 50ern, tiefes, kiesiges Monoton, weltmüde, trockener Vortrag“
  • „Eine quirlige Kochshow-Moderatorin mit starkem italienischem Akzent, laut, ausdrucksstark, immer kurz vor einem Lachen“
  • „Eine fehlerhafte Schiffs-KI: flach, präzise, etwas zu ruhig, mit abgehackter Roboter-Kadenz“

Generieren, zwei Samples vergleichen, verfeinern, speichern — ein komplettes Original-Ensemble an einem Nachmittag. Setzen Sie sie dann mit Multispeaker-Text-to-Speech gemeinsam in eine Szene oder durchsuchen Sie AI-Charakterstimmen, die andere zur Inspiration erstellt haben.


Voice Design vs. Voice Cloning: Was sollten Sie verwenden?

Fish Audio bietet nun drei Möglichkeiten, eine Stimme zu erstellen, die für unterschiedliche Aufgaben geeignet sind:

Voice DesignInstant Voice CloneProfessional Voice Clone
EingabeEine Textbeschreibung~10 Sek. AudioAufnahmen in Studioqualität
Zeit~15 Sekunden~1 Minute1–2 Stunden
Bestens geeignet fürOriginelle Charaktere & brandneue StimmenSchnelles Replizieren einer vorhandenen AufnahmeVerifizierter Klon einer realen Person in Studioqualität
Stimme bereits vorhanden?Nein — von Grund auf neu erstelltJaJa — mit Eigentumsnachweis

Die Faustregel: Wenn die Stimme noch nicht existiert, designen Sie sie. Wenn doch, klonen Sie sie.

Original durch Design

Es gibt einen subtileren Vorteil von designten Stimmen, der erwähnenswert ist: Sie leihen sich nichts von anderen. Jedes Voice Design-Ergebnis wird aus einer Beschreibung generiert, nicht aus den Aufnahmen einer Person — und jede auf Fish Audio erstellte Stimme muss eine Bestätigung durchlaufen, dass sie keine reale, identifizierbare Person imitiert. Dies ist ein Workflow, der darauf ausgelegt ist, Ihr Projekt frei von Bedenken hinsichtlich Zustimmung und Persönlichkeitsrechten zu halten.

Und wenn die Stimme, die Sie benötigen, einer echten Person gehört — Ihnen selbst oder einem Synchronsprecher —, glauben wir, dass die Antwort nicht darin besteht, diese Linie zu verwischen, sondern die Eigentumsverhältnisse explizit zu machen. Synchronsprecher auf der ganzen Welt fordern genau das: Zustimmung und faire Vergütung für die Nutzung ihrer Stimmen im KI-Zeitalter. Das ist die Idee hinter unserem neuen Professional Voice Clone: ein verifizierter Klon der Stimme einer realen Person in Studioqualität, basierend auf einer Echtzeit-Eigentumsverifizierung, mit optionaler kommerzieller Veröffentlichung und Umsatzbeteiligung für den Stimmeninhaber. Dies ist der Beginn eines faireren Deals zwischen Stimmeninhabern und den Menschen, die ihre Stimmen nutzen möchten — mehr dazu in unserem kommenden Deep Dive.


Designen Sie Ihre erste Stimme in 15 Sekunden

Die richtige Stimme bedeutete früher das Vorsprechen von Schauspielern, das Durchforsten von Bibliotheken oder das Zufriedengeben mit „gut genug“. Jetzt bedeutet es das Schreiben eines einzigen guten Satzes.

Designen Sie Ihre erste Stimme kostenlos → — kostenlos während der Einführungsphase.

Sabrina Shu

Sabrina Shu

Sabrina is part of Fish Audio's support and marketing team, helping users get the most out of AI voice products while turning launches, updates, and customer insights into clear, practical content.

Mehr von Sabrina Shu lesen

Erstelle Stimmen, die echt wirken

Beginnen Sie noch heute mit der Erstellung von Audio in höchster Qualität.

Haben Sie bereits ein Konto? Einloggen