Как создать ИИ-компаньона с помощью Pipecat

В 2025 году приложения с ИИ-компаньонами достигли около 220 миллионов загрузок по всему миру в Apple App Store и Google Play Store, при этом количество загрузок выросло на 88% в годовом исчислении. Поскольку новые ИИ-компаньоны появляются каждый день, сопровождая это регулярными спорами и дискуссиями об их использовании, трудно игнорировать эту процветающую сферу. Будь то поиск общения, друга, собеседника или кого-то, с кем можно попрактиковаться в речи, ИИ-компаньоны формируют новый сектор передовых технологий, сочетающий в себе множество самых современных инструментов, доступных сегодня. Генеративное видео, генеративный текст и генеративная речь смешиваются, создавая возможность создать компаньона, который кажется настоящим и присутствующим рядом.
Голос ИИ-компаньона
Одним из наиболее важных аспектов ИИ-компаньона является его голос. Являясь квинтэссенцией личности, характера и идентичности компаньона, голос ИИ жизненно важен для передачи того, кем он является. Для обеспечения наилучшего пользовательского опыта необходимо аудио высочайшего качества, а также такие возможности, как потоковая передача в реальном времени для чатов или звонков, эмоциональная управляемость и настраиваемость.
Pipecat
Для разработчиков, создающих ИИ-компаньонов для общения в реальном времени с помощью голосовых вызовов, Pipecat — отличный вариант для начала. Pipecat предлагает платформу для разработчиков и SDK для создания чатов с потоковой передачей голоса через продукт Daily rooms их материнской компании. Pipecat обеспечивает инфраструктуру потоковой передачи информации к ИИ-компаньону и от него, объединяя такие блоки, как преобразование речи в текст (STT), LLM и синтез речи (TTS). Pipecat использует Daily rooms как среду, в которую входят пользователь и ИИ-компаньоны. Кроме того, Pipecat предлагает множество интеграций с провайдерами синтеза речи, такими как Fish Audio. Использовать выразительные голоса Fish Audio так же просто, как подключить клиент Fish Audio.

Как начать работу с Pipecat
Для Python сервис FishTTSService в Pipecat обеспечивает синтез речи в реальном времени через API потоковой передачи Fish Audio на основе веб-сокетов.
Обязательно установите необходимую зависимость: pip install “pipecat-ai[fish]”, затем настройте свою учетную запись Fish Audio.
Сначала вам следует войти в Fish Audio, после чего вы сможете использовать голос по умолчанию, клонировать свой собственный голос или выбрать один из библиотеки. Клонирование голоса от Fish Audio — это ведущая технология клонирования ИИ-голосов, передающая полную эмоциональную выразительность и сходство. Для этого требуется как минимум 10 секунд аудиозаписи клонируемого голоса, поэтому, чтобы начать еще быстрее, вы также можете найти голос, созданный сообществом на странице Discovery. Как только вы выберете голос, получите ключ API в консоли API, установите его в качестве переменной окружения FISH_API_KEY, и вы готовы к интеграции Fish Audio в Pipecat!
Служба синтеза речи (TTS)
Когда Fish Audio готов, необходимо создать службу TTS и поместить ее в ваш конвейер (pipeline) Pipecat. Она должна быть правильно расположена для получения текста и генерации аудиокадров. Подробнее читайте в официальной документации Pipecat здесь.

И это все! Как только ваша служба TTS начнет принимать текстовые фрагменты от LLM или прямые речевые запросы и выдавать аудиокадры, ваш ИИ-компаньон будет готов использовать голос Fish Audio для общения с пользователем. Вы можете экспериментировать с разными голосами, пробовать давать системные подсказки LLM для создания эмоциональных тегов, которые поддерживает Fish Audio, и даже попробовать объединить нескольких ИИ-компаньонов для создания сложных диалогов.

James is a legendary machine learning engineer working across infrastructure and automation. Find him fiddling with 67 software and hardware systems at twango.dev since 2006.
Читать больше от James Ding
