كيفية إنشاء مرافق ذكاء اصطناعي باستخدام Pipecat

حققت تطبيقات مرافق الذكاء الاصطناعي حوالي 220 مليون عملية تنزيل عالمية على Apple App Store و Google Play Store في عام 2025، مع ارتفاع عمليات التنزيل بنسبة 88% على أساس سنوي. مع ظهور مرافقين جدد للذكاء الاصطناعي كل يوم، إلى جانب الجدل والنقاش المستمر حول استخدامها، من الصعب تجاهل هذا المجال المزدهر. وسواء كان المستخدمون يبحثون عن الرفقة، أو صديق، أو شخص للتحدث معه، أو شخص للتدرب على التحدث معه، فإن مرافقين الذكاء الاصطناعي يشكلون قطاعًا جديدًا من التكنولوجيا الرائدة التي تجمع بين الكثير من الأدوات المتطورة المتاحة اليوم. تتداخل الفيديوهات التوليدية، والنصوص التوليدية، والكلام التوليدي لخلق فرصة لإنشاء مرافق يبدو حقيقيًا وحاضرًا.
صوت مرافق الذكاء الاصطناعي
يعد الصوت أحد أهم جوانب مرافق الذكاء الاصطناعي. بصفته الجوهر المستخلص لشخصية المرافق وهويته، فإن صوت مرافق الذكاء الاصطناعي حيوي في نقل هويته. من الضروري توفير صوت بأعلى جودة لخلق أفضل تجربة ممكنة للمستخدم، وعلاوة على ذلك، يحتاج إلى قدرات مثل البث في الوقت الفعلي للمحادثات المباشرة أو المكالمات، والقدرة على توجيه المشاعر، وقابلية التخصيص.
Pipecat
بالنسبة للمطورين الذين ينشئون مرافقين للذكاء الاصطناعي في الوقت الفعلي يتحدثون عبر مكالمات صوتية مباشرة، يعد Pipecat خيارًا رائعًا للبدء. يقدم Pipecat منصة للمطورين وأدوات SDK لإنشاء محادثات بث مباشر بالصوت، من خلال منتج Daily rooms التابع لشركتهم الأم. يدير Pipecat البنية التحتية لبث المعلومات من وإلى مرافق الذكاء الاصطناعي ويجمع بين اللبنات الأساسية لتحويل الكلام إلى نص، ونماذج اللغة الكبيرة (LLM)، وتحويل النص إلى كلام (TTS). يستخدم Pipecat غرف Daily rooms كبيئة يتصل بها المستخدم ومرافقو الذكاء الاصطناعي. علاوة على ذلك، يقدم Pipecat العديد من عمليات التكامل مع مزودي خدمة تحويل النص إلى كلام مثل Fish Audio. إن استخدام أصوات Fish Audio عالية التعبير سهل تمامًا مثل التبديل إلى عميل Fish Audio.

كيفية البدء مع Pipecat
بالنسبة للغة Python، توفر خدمة FishTTSService من Pipecat توليفًا للنص إلى كلام في الوقت الفعلي من خلال واجهة برمجة تطبيقات البث القائمة على websocket من Fish Audio.
تأكد من تثبيت التبعية المطلوبة: pip install “pipecat-ai[fish]” ثم قم بإعداد حساب Fish Audio الخاص بك.
يجب عليك أولاً تسجيل الدخول إلى Fish Audio، وبعد ذلك يمكنك إما استخدام الصوت الافتراضي، أو استنساخ صوتك الخاص، أو اختيار واحد من المكتبة. يعد استنساخ الصوت من Fish Audio أفضل مستنسخ أصوات بالذكاء الاصطناعي، حيث يلتقط كامل التعبير العاطفي والتشابه. يتطلب الأمر تسجيلاً صوتيًا مدته 10 ثوانٍ على الأقل للصوت الذي تستنسخه، لذا للبدء بشكل أسرع، يمكنك أيضًا العثور على صوت تم إنشاؤه بواسطة المجتمع في صفحة Discovery. بمجرد حصولك على صوتك، احصل على مفتاح واجهة برمجة التطبيقات من وحدة تحكم API، واضبطه كمتغير بيئة FISH_API_KEY وستكون جاهزًا لدمج Fish Audio في Pipecat!
خدمة تحويل النص إلى كلام
بمجرد أن يصبح Fish Audio جاهزًا، يجب عليك إنشاء خدمة TTS ووضعها في خط أنابيب Pipecat. يجب وضعها بشكل صحيح لاستلام النص وإنشاء إطارات صوتية. اقرأ المزيد في وثائق Pipecat الرسمية هنا.

وهذا كل شيء! بمجرد أن تقوم خدمة TTS الخاصة بك باستيعاب أجزاء نص LLM أو طلبات الكلام المباشرة ثم إخراج إطارات صوتية، يصبح مرافق الذكاء الاصطناعي الخاص بك جاهزًا لاستخدام صوت Fish Audio للتحدث مع المستخدم. يمكنك تجربة أصوات مختلفة، واختبار توجيه نظام LLM لإنتاج علامات المشاعر التي يدعمها Fish Audio، وحتى محاولة الجمع بين عدة مرافقين للذكاء الاصطناعي لإنتاج حوار معقد.

James is a legendary machine learning engineer working across infrastructure and automation. Find him fiddling with 67 software and hardware systems at twango.dev since 2006.
اقرأ المزيد من James Ding
