Offre à durée limitée- 50% DE RÉDUCTION ANNUELLEÉchanger
Comment créer un compagnon IA avec Pipecat

Les applications de compagnons IA ont atteint environ 220 millions de téléchargements mondiaux sur l'Apple App Store et le Google Play Store en 2025, avec une augmentation de 88 % par an. Avec l'émergence quotidienne de nouveaux compagnons IA, accompagnée de controverses et de discussions régulières sur leur utilisation, il est difficile d'ignorer cet espace en pleine effervescence. Qu'il s'agisse de camaraderie, d'un ami, de quelqu'un à qui parler ou d'un partenaire pour s'entraîner à la parole, les compagnons IA forment un nouveau secteur technologique de pointe combinant bon nombre d'outils d'avant-garde disponibles aujourd'hui. Les vidéos génératives, le texte génératif et la parole générative se mélangent pour offrir l'opportunité de créer un compagnon qui semble réel et présent.

La voix du compagnon IA

L'un des aspects les plus importants d'un compagnon IA est sa voix. Essence distillée de la personnalité, du caractère et de l'identité du compagnon, sa voix est essentielle pour transmettre qui il est. Un audio de la plus haute qualité est nécessaire pour créer la meilleure expérience utilisateur possible, et nécessite en outre des capacités telles que le streaming en temps réel pour les discussions en direct ou les appels, la direction émotionnelle (emotional steerability) et la personnalisation.

Pipecat

Pour les développeurs créant des compagnons IA en temps réel qui discutent via des appels vocaux en direct, Pipecat est une excellente option pour commencer. Pipecat propose une plateforme pour développeurs et des SDK pour créer des chats en streaming direct en voix, via le produit Daily rooms de leur société mère. Pipecat alimente l'infrastructure de streaming d'informations vers et depuis le compagnon IA et assemble les briques technologiques de la reconnaissance vocale (speech-to-text), du LLM et de la synthèse vocale (text-to-speech). Pipecat utilise Daily rooms comme environnement dans lequel l'utilisateur et les compagnons IA se connectent. De plus, Pipecat propose de nombreuses intégrations avec des fournisseurs de voix de synthèse tels que Fish Audio. Utiliser les voix hautement expressives de Fish Audio est aussi simple que d'intégrer le client Fish Audio. Pipecat

Comment débuter avec Pipecat

Pour Python, le FishTTSService de Pipecat fournit une synthèse vocale en temps réel via l'API de streaming basée sur websocket de Fish Audio.

Assurez-vous d'installer la dépendance requise : pip install “pipecat-ai[fish]”, puis configurez votre compte Fish Audio.

Vous devez d'abord vous connecter à Fish Audio, puis vous pouvez soit utiliser la voix par défaut, cloner votre propre voix, soit en choisir une dans la bibliothèque. Le clonage de voix de Fish Audio est le meilleur outil de clonage de voix par IA, capturant toute l'expressivité émotionnelle et la ressemblance. Il nécessite au moins 10 secondes d'enregistrement audio de la voix que vous clonez, donc pour commencer encore plus vite, vous pouvez également en trouver une générée par la communauté sur la page Discovery. Une fois que vous avez votre voix, récupérez votre clé API dans la console API, configurez-la comme variable d'environnement FISH_API_KEY et vous êtes prêt à intégrer Fish Audio dans Pipecat !

Service de synthèse vocale

Une fois Fish Audio prêt, vous devez créer le service TTS et le placer dans votre pipeline Pipecat. Il doit être positionné correctement pour recevoir le texte et générer les trames audio. Pour en savoir plus, consultez la documentation officielle de Pipecat ici. Pipecat Text-to-Speech Service

Et voilà ! Une fois que votre service TTS ingère des morceaux de texte du LLM ou des requêtes vocales directes et produit des trames audio, votre compagnon IA est prêt à utiliser votre voix Fish Audio pour parler à l'utilisateur. Vous pouvez essayer différentes voix, expérimenter avec le prompting système du LLM pour produire des étiquettes d'émotion supportées par Fish Audio, et même essayer d'associer plusieurs compagnons IA pour produire des dialogues complexes.

James Ding

James Ding

James is a legendary machine learning engineer working across infrastructure and automation. Find him fiddling with 67 software and hardware systems at twango.dev since 2006.

Lire plus de James Ding

Créez des voix qui semblent réelles

Commencez à générer un son de la plus haute qualité dès aujourd'hui.

Vous avez déjà un compte ? Se connecter