Fish Audio S2

A IA de voz mais expressiva
já criada,
agora de código aberto.

Gere fala incrivelmente realista

Experimente o Fish Audio S2 agora

O que torna o S2 diferente

Construído do zero para expressividade, velocidade e abertura.

Latência ultrabaixa

Tempo de resposta inferior a 150ms permite IA conversacional em tempo real, dublagem ao vivo e aplicações de voz interativas. Desempenho pronto para produção sem comprometer a qualidade.

<150ms

Controle de domínio aberto e multi-falante

Controle emoções, paralinguagem e mais com instruções de texto naturais. Adicione risadas, sussurros, suspiros e qualquer elemento expressivo. Conversas multi-falante perfeitas — alterne entre falantes naturalmente em uma única geração.

<|speaker:1|> [giggles]

Totalmente de código aberto

Tanto o código de inferência quanto os pesos do modelo são totalmente de código aberto. Execute o S2 em sua própria infraestrutura, ajuste com seus dados e integre sem dependência de fornecedor. Construído para transparência e inovação impulsionada pela comunidade.

Built with SGLang

Construa com a API Fish Audio S2

Gere fala realista em mais de 80 idiomas com controle de emoção, direção e múltiplos falantes.

from fishaudio import FishAudio
from fishaudio.utils import save

# Initialize with your API key
client = FishAudio(api_key="your_api_key_here")

# Generate speech
audio = client.tts.convert(text="Fish Audio S2 is the best voice AI model.", model="s2-pro")
save(audio, "welcome.mp3")

Perguntas frequentes

O Fish Audio S2 Pro é um modelo líder de texto para fala com controle inline refinado de prosódia e emoção. Treinado com mais de 10 milhões de horas de dados de áudio em mais de 80 idiomas, combina alinhamento por aprendizado por reforço com uma arquitetura Dual-Autorregressiva (Dual-AR) — um Slow AR de 4B parâmetros para predição semântica e um Fast AR de 400M parâmetros para detalhes acústicos. O lançamento inclui pesos do modelo, código de ajuste fino e um motor de inferência de streaming baseado em SGLang.

O S2 Pro permite controle localizado sobre a geração de fala incorporando instruções em linguagem natural diretamente no texto usando a sintaxe [tag]. Em vez de depender de um conjunto fixo de tags predefinidas, o S2 Pro aceita descrições textuais livres — como [whisper in small voice], [professional broadcast tone] ou [pitch up] — permitindo controle de expressão aberto no nível da palavra. Mais de 15.000 tags únicas são suportadas, incluindo [pause], [emphasis], [laughing], [excited], [whisper], [singing] e muitas outras.

Em uma única GPU NVIDIA H200, o S2 Pro alcança um Fator de Tempo Real (RTF) de 0,195, tempo até o primeiro áudio de ~100ms e throughput de mais de 3.000 tokens acústicos por segundo, mantendo o RTF abaixo de 0,5. O motor de inferência baseado em SGLang herda todas as otimizações nativas de serviço LLM — incluindo continuous batching, paged KV cache, CUDA graph replay e prefix caching baseado em RadixAttention.

O S2 Pro suporta mais de 80 idiomas. Os idiomas de Nível 1 (mais alta qualidade) incluem japonês, inglês e chinês. Os idiomas de Nível 2 incluem coreano, espanhol, português, árabe, russo, francês e alemão. Outros idiomas suportados incluem sueco, italiano, turco, holandês, hindi, tailandês, vietnamita e mais.

O S2 Pro é licenciado sob a Fish Audio Research License. Uso para pesquisa e não comercial é permitido gratuitamente. Uso comercial requer uma licença separada da Fish Audio — entre em contato com business@fish.audio para detalhes.