Oferta por tempo limitado- 50% DE DESCONTO ANUALResgatar
21 de nov. de 2025Guide

Como criar um companheiro de IA com Pipecat

Como criar um companheiro de IA com Pipecat

Os aplicativos de companheiros de IA alcançaram cerca de 220 milhões de downloads globais na Apple App Store e na Google Play Store em 2025, com um aumento de 88% em relação ao ano anterior. Com novos companheiros de IA surgindo todos os dias, juntamente com polêmicas e discussões frequentes sobre seu uso, é difícil ignorar esse espaço em expansão. Seja para companhia, amizade, alguém para conversar ou alguém com quem praticar a fala, os companheiros de IA estão formando um novo setor de tecnologia de fronteira que combina muitas das ferramentas de ponta disponíveis hoje. Vídeos generativos, texto generativo e fala generativa estão se misturando para criar a oportunidade de fazer um companheiro que pareça real e presente.

A voz do companheiro de IA

Um dos aspectos mais importantes de um companheiro de IA é sua voz. Sendo a essência destilada da personalidade, caráter e identidade do companheiro, a voz da IA é vital para transmitir quem ele é. O áudio de alta qualidade é necessário para criar a melhor experiência possível para o usuário e, além disso, precisa de recursos como streaming em tempo real para conversas ao vivo ou chamadas, direcionamento emocional e personalização.

Pipecat

Para desenvolvedores que criam companheiros de IA em tempo real que conversam por chamadas de voz ao vivo, o Pipecat é uma ótima opção para começar. O Pipecat oferece uma plataforma de desenvolvedor e SDKs para criar chats de streaming ao vivo em voz, por meio do produto Daily rooms de sua empresa controladora. O Pipecat alimenta a infraestrutura de streaming de informações de e para o companheiro de IA e une os blocos de construção de fala para texto (STT), LLM e texto para fala (TTS). O Pipecat usa o Daily rooms como o ambiente onde o usuário e os companheiros de IA se conectam. Além disso, o Pipecat oferece muitas integrações com provedores de voz de texto para fala, como o Fish Audio. Usar as vozes altamente expressivas do Fish Audio é tão fácil quanto trocar o cliente Fish Audio. Pipecat

Como começar com o Pipecat

Para Python, o FishTTSService do Pipecat fornece síntese de texto para fala em tempo real por meio da API de streaming baseada em websocket do Fish Audio.

Certifique-se de instalar a dependência necessária: pip install “pipecat-ai[fish]” e, em seguida, configure sua conta no Fish Audio.

Primeiro, você deve entrar no Fish Audio e, então, pode usar a voz padrão, clonar sua própria voz ou escolher uma da biblioteca. A clonagem de voz do Fish Audio é o melhor clonador de voz de IA, capturando toda a expressividade emocional e semelhança. É necessário pelo menos 10 segundos de gravação de áudio da voz que você está clonando, então, para começar ainda mais rápido, você também pode encontrar uma gerada pela comunidade na página Discovery. Assim que tiver sua voz, pegue sua chave de API no console de API, defina-a como uma variável de ambiente FISH_API_KEY e você estará pronto para integrar o Fish Audio ao Pipecat!

Serviço de Texto para Fala

Assim que o Fish Audio estiver pronto, você deve criar o serviço TTS e colocá-lo no seu pipeline do Pipecat. Ele deve estar posicionado corretamente para receber texto e gerar frames de áudio. Leia mais na documentação oficial do Pipecat aqui. Pipecat Text-to-Speech Service

E é isso! Assim que seu serviço TTS estiver processando blocos de texto do LLM ou solicitações diretas de fala e emitindo frames de áudio, seu companheiro de IA estará pronto para usar sua voz do Fish Audio para falar com o usuário. Você pode testar vozes diferentes, experimentar o prompting do sistema do LLM para produzir as tags de emoção que o Fish Audio suporta e até tentar reunir vários companheiros de IA para produzir diálogos complexos.

James Ding

James Ding

James is a legendary machine learning engineer working across infrastructure and automation. Find him fiddling with 67 software and hardware systems at twango.dev since 2006.

Leia mais de James Ding

Crie vozes que parecem reais

Comece a gerar áudio da mais alta qualidade hoje.

Já tem uma conta? Entrar