2025년 11월 21일

Pipecat으로 AI 컴패니언 만드는 방법

AI 컴패니언 앱은 2025년 Apple App Store와 Google Play Store에서 전 세계적으로 약 2억 2천만 건의 다운로드를 기록했으며, 다운로드 수는 전년 대비 88% 증가했습니다. 매일 새로운 AI 컴패니언이 등장하고 그 사용에 대한 논란과 토론이 끊이지 않는 가운데, 이 급성장하는 분야를 간과하기는 어렵습니다. 사용자가 원하는 것이 동반자 관계이든, 친구이든, 대화 상대이든, 혹은 함께 말하기 연습을 할 상대이든 상관없이, AI 컴패니언은 오늘날 사용 가능한 수많은 최첨단 도구들을 결합한 새로운 프런티어 기술 분야를 형성하고 있습니다. 생성형 비디오, 생성형 텍스트, 생성형 음성이 모두 어우러져 마치 실제 존재하고 곁에 있는 것 같은 컴패니언을 만들 수 있는 기회를 제공합니다.

AI 컴패니언의 목소리

AI 컴패니언의 가장 중요한 요소 중 하나는 목소리입니다. 컴패니언의 성격, 캐릭터, 정체성의 정수라고 할 수 있는 목소리는 그들이 누구인지를 전달하는 데 매우 중요한 역할을 합니다. 사용자에게 최상의 경험을 제공하기 위해서는 최고 품질의 오디오가 필수적이며, 실시간 채팅이나 통화를 위한 실시간 스트리밍 기능, 감정 조절 능력, 그리고 사용자 정의 가능성(customizability)이 필요합니다.

Pipecat

실시간 음성 통화로 대화하는 AI 컴패니언을 개발하려는 개발자들에게 Pipecat은 훌륭한 선택입니다. Pipecat은 모회사인 Daily의 rooms 제품을 통해 음성 라이브 스트리밍 채팅을 만들 수 있는 개발자 플랫폼과 SDK를 제공합니다. Pipecat은 AI 컴패니언과의 정보 스트리밍 인프라를 지원하며 음성 텍스트 변환(STT), LLM, 텍스트 음성 변환(TTS)의 구성 요소들을 하나로 묶어줍니다. Pipecat은 사용자나 AI 컴패니언이 접속하는 환경으로 Daily rooms를 사용합니다. 또한, Pipecat은 Fish Audio와 같은 텍스트 음성 변환 서비스 제공업체와 다양한 연동 기능을 제공합니다. Fish Audio의 표현력이 뛰어난 목소리를 사용하는 것은 Fish Audio 클라이언트를 교체하는 것만큼이나 간단합니다. Pipecat

Pipecat 시작하기

Python의 경우, Pipecat의 FishTTSService는 Fish Audio의 Websocket 기반 스트리밍 API를 통해 실시간 텍스트 음성 합성을 제공합니다.

필수 종속성을 설치했는지 확인하세요: pip install “pipecat-ai[fish]” 그 다음 Fish Audio 계정을 설정합니다.

먼저 Fish Audio에 로그인한 다음, 기본 목소리를 사용하거나, 자신의 목소리를 복제하거나, 라이브러리에서 하나를 선택할 수 있습니다. Fish Audio의 목소리 복제는 감정적 표현력과 유사성을 완벽하게 포착하는 최고의 AI 목소리 복제 기술입니다. 복제하려는 목소리의 녹음 파일이 최소 10초 이상 필요하므로, 더 빨리 시작하고 싶다면 Discovery 페이지에서 커뮤니티가 생성한 목소리를 찾을 수도 있습니다. 목소리를 선택했다면 API 콘솔에서 API 키를 가져와 환경 변수 FISH_API_KEY로 설정하세요. 이제 Fish Audio를 Pipecat에 통합할 준비가 되었습니다!

텍스트 음성 변환(TTS) 서비스

Fish Audio를 준비했다면 TTS 서비스를 생성하고 Pipecat 파이프라인에 배치해야 합니다. 텍스트를 수신하고 오디오 프레임을 생성할 수 있도록 올바른 위치에 배치해야 합니다. 자세한 내용은 Pipecat의 공식 문서 여기를 참조하세요. Pipecat Text-to-Speech Service

이제 끝났습니다! TTS 서비스가 LLM 텍스트 청크나 직접적인 음성 요청을 받아 오디오 프레임을 출력하게 되면, 여러분의 AI 컴패니언은 Fish Audio 목소리를 사용하여 사용자와 대화할 준비가 된 것입니다. 다양한 목소리를 사용해 보고, Fish Audio가 지원하는 감정 태그를 생성하도록 LLM에 시스템 프롬프트를 실험해 보거나, 여러 AI 컴패니언을 결합하여 복잡한 대화를 만들어 볼 수도 있습니다.

James Ding

James is a legendary machine learning engineer working across infrastructure and automation. Find him fiddling with 67 software and hardware systems at twango.dev since 2006.

James Ding의 더 많은 글 보기