21 nov 2025

Cómo crear un compañero de IA con Pipecat

Las aplicaciones de compañeros de IA alcanzaron unos 220 millones de descargas globales en la Apple App Store y la Google Play Store en 2025, con un aumento de las descargas del 88% interanual. Con la aparición diaria de nuevos compañeros de IA, junto con la controversia y el debate habitual sobre su uso, es difícil ignorar este espacio en auge. Ya sea que sus usuarios busquen compañía, un amigo, alguien con quien hablar o alguien con quien practicar idiomas, los compañeros de IA están formando un nuevo sector de tecnología de vanguardia que combina muchas de las herramientas más avanzadas disponibles hoy en día. Los videos generativos, el texto generativo y el habla generativa se mezclan para crear la oportunidad de fabricar un compañero que se sienta real y presente.

La voz del compañero de IA

Uno de los aspectos más importantes de un compañero de IA es su voz. Al ser la esencia destilada de la personalidad, el carácter y la identidad del compañero, la voz de la IA es vital para transmitir quiénes son. El audio de la más alta calidad es necesario para crear la mejor experiencia posible para el usuario y, además, requiere capacidades como el streaming en tiempo real para chats en vivo o llamadas, control emocional y personalización.

Pipecat

Para los desarrolladores que crean compañeros de IA en tiempo real que chatean mediante llamadas de voz en vivo, Pipecat es una excelente opción para comenzar. Pipecat ofrece una plataforma para desarrolladores y SDKs para crear chats de streaming en vivo por voz, a través del producto Daily rooms de su empresa matriz. Pipecat impulsa la infraestructura de streaming de información hacia y desde el compañero de IA, uniendo los bloques fundamentales de voz a texto, LLM y texto a voz. Pipecat utiliza Daily rooms como el entorno donde el usuario y los compañeros de IA se conectan. Además, Pipecat ofrece muchas integraciones con proveedores de voces de texto a voz como Fish Audio. Utilizar las voces altamente expresivas de Fish Audio es tan sencillo como cambiar al cliente de Fish Audio. Pipecat

Cómo empezar con Pipecat

Para Python, el FishTTSService de Pipecat proporciona síntesis de texto a voz en tiempo real a través de la API de streaming basada en websockets de Fish Audio.

Asegúrese de instalar la dependencia requerida: pip install “pipecat-ai[fish]” y luego configure su cuenta de Fish Audio.

Primero debe iniciar sesión en Fish Audio y luego puede usar la voz predeterminada, clonar su propia voz o elegir una de la biblioteca. La clonación de voz de Fish Audio es el mejor clonador de voz por IA, capturando toda la expresividad emocional y la semejanza. Requiere al menos 10 segundos de grabación de audio de la voz que está clonando, por lo que para comenzar aún más rápido, también puede encontrar una generada por la comunidad en la página Discovery. Una vez que tenga su voz, obtenga su clave de API de la consola de API, configúrela como una variable de entorno FISH_API_KEY ¡y ya está listo para integrar Fish Audio en Pipecat!

Servicio de texto a voz (Text-to-Speech)

Una vez que tenga Fish Audio listo, debe crear el servicio TTS y colocarlo en su pipeline de Pipecat. Debe estar posicionado correctamente para recibir texto y generar tramas de audio. Lea más en la documentación oficial de Pipecat aquí. Servicio de texto a voz de Pipecat

¡Y eso es todo! Una vez que tenga su servicio TTS procesando fragmentos de texto del LLM o solicitudes directas de habla y luego emitiendo tramas de audio, su compañero de IA estará listo para usar su voz de Fish Audio para hablar con el usuario. Puede jugar con diferentes voces, experimentar con prompts de sistema para el LLM para que produzca etiquetas de emoción compatibles con Fish Audio e incluso intentar reunir a varios compañeros de IA para producir diálogos complejos.

James Ding

James is a legendary machine learning engineer working across infrastructure and automation. Find him fiddling with 67 software and hardware systems at twango.dev since 2006.

Leer más de James Ding

Crea voces que se sienten reales

Comienza a generar audio de la más alta calidad hoy mismo.

Regístrate gratis

¿Ya tienes una cuenta? Iniciar sesión

Last Updates

Guía de DMCA y derechos de autor de Fish Audio: cómo enviar una solicitud de eliminación por DMCA a Fish Audio

15 abr 2026INFO

Cómo enviar una solicitud de DMCA a Fish Audio

Sabrina ShuSupport & Marketing Specialist

Creator Spotlight Nick 11 de abr de 2026

9 abr 2026CASOS DE USO

Creator Spotlight: Nick — Transformando el Gameplay en algo Impactante

Fish Audio CommunityFish Audio Community Team

Portada del blog con un fondo de pintura al óleo impresionista abstracta en tonos crema y melocotón cálidos. Titular en la parte superior izquierda 'Sometimos nuestro TTS a una prueba a ciegas frente a todos los principales competidores' con una fila de cuatro tarjetas de cristal esmerilado debajo que muestran las puntuaciones Bradley-Terry: Fish Audio S2 Pro con 3.07 y una tasa de victoria del 66%, Fish Audio S1, ElevenLabs V3 e Inworld.

5 abr 2026Investigación

Sometimos nuestro TTS a una prueba a ciegas frente a todos los principales competidores. Aquí están los resultados.

Shijia LiaoChief Scientist

Cómo crear un compañero de IA con Pipecat

La voz del compañero de IA

Pipecat

Cómo empezar con Pipecat

Servicio de texto a voz (Text-to-Speech)

Crea voces que se sienten reales

Last Updates

Cómo enviar una solicitud de DMCA a Fish Audio

Creator Spotlight: Nick — Transformando el Gameplay en algo Impactante

Sometimos nuestro TTS a una prueba a ciegas frente a todos los principales competidores. Aquí están los resultados.

Recommended

Sometimos nuestro TTS a una prueba a ciegas frente a todos los principales competidores. Aquí están los resultados.

Herramienta de transcripción de podcasts: Cómo transcribir tu podcast con Fish Audio

¡El mejor TTS con IA para equipos creativos! Explicación del Plan de Equipo de Fish Audio

¡Fish Audio S2! Control de voz por IA detallado a nivel de palabra

Fish Audio lanza en código abierto S2: Control detallado para streaming de producción

Cómo usar SAM Audio para la separación de audio paso a paso