Cómo crear un compañero de IA con Pipecat

Las aplicaciones de compañeros de IA alcanzaron unos 220 millones de descargas globales en la Apple App Store y la Google Play Store en 2025, con un aumento de las descargas del 88% interanual. Con la aparición diaria de nuevos compañeros de IA, junto con la controversia y el debate habitual sobre su uso, es difícil ignorar este espacio en auge. Ya sea que sus usuarios busquen compañía, un amigo, alguien con quien hablar o alguien con quien practicar idiomas, los compañeros de IA están formando un nuevo sector de tecnología de vanguardia que combina muchas de las herramientas más avanzadas disponibles hoy en día. Los videos generativos, el texto generativo y el habla generativa se mezclan para crear la oportunidad de fabricar un compañero que se sienta real y presente.
La voz del compañero de IA
Uno de los aspectos más importantes de un compañero de IA es su voz. Al ser la esencia destilada de la personalidad, el carácter y la identidad del compañero, la voz de la IA es vital para transmitir quiénes son. El audio de la más alta calidad es necesario para crear la mejor experiencia posible para el usuario y, además, requiere capacidades como el streaming en tiempo real para chats en vivo o llamadas, control emocional y personalización.
Pipecat
Para los desarrolladores que crean compañeros de IA en tiempo real que chatean mediante llamadas de voz en vivo, Pipecat es una excelente opción para comenzar. Pipecat ofrece una plataforma para desarrolladores y SDKs para crear chats de streaming en vivo por voz, a través del producto Daily rooms de su empresa matriz. Pipecat impulsa la infraestructura de streaming de información hacia y desde el compañero de IA, uniendo los bloques fundamentales de voz a texto, LLM y texto a voz. Pipecat utiliza Daily rooms como el entorno donde el usuario y los compañeros de IA se conectan. Además, Pipecat ofrece muchas integraciones con proveedores de voces de texto a voz como Fish Audio. Utilizar las voces altamente expresivas de Fish Audio es tan sencillo como cambiar al cliente de Fish Audio.

Cómo empezar con Pipecat
Para Python, el FishTTSService de Pipecat proporciona síntesis de texto a voz en tiempo real a través de la API de streaming basada en websockets de Fish Audio.
Asegúrese de instalar la dependencia requerida: pip install “pipecat-ai[fish]” y luego configure su cuenta de Fish Audio.
Primero debe iniciar sesión en Fish Audio y luego puede usar la voz predeterminada, clonar su propia voz o elegir una de la biblioteca. La clonación de voz de Fish Audio es el mejor clonador de voz por IA, capturando toda la expresividad emocional y la semejanza. Requiere al menos 10 segundos de grabación de audio de la voz que está clonando, por lo que para comenzar aún más rápido, también puede encontrar una generada por la comunidad en la página Discovery. Una vez que tenga su voz, obtenga su clave de API de la consola de API, configúrela como una variable de entorno FISH_API_KEY ¡y ya está listo para integrar Fish Audio en Pipecat!
Servicio de texto a voz (Text-to-Speech)
Una vez que tenga Fish Audio listo, debe crear el servicio TTS y colocarlo en su pipeline de Pipecat. Debe estar posicionado correctamente para recibir texto y generar tramas de audio. Lea más en la documentación oficial de Pipecat aquí.

¡Y eso es todo! Una vez que tenga su servicio TTS procesando fragmentos de texto del LLM o solicitudes directas de habla y luego emitiendo tramas de audio, su compañero de IA estará listo para usar su voz de Fish Audio para hablar con el usuario. Puede jugar con diferentes voces, experimentar con prompts de sistema para el LLM para que produzca etiquetas de emoción compatibles con Fish Audio e incluso intentar reunir a varios compañeros de IA para producir diálogos complejos.

James is a legendary machine learning engineer working across infrastructure and automation. Find him fiddling with 67 software and hardware systems at twango.dev since 2006.
Leer más de James Ding
