نقدم لكم Fish-Speech: جيل جديد من أنظمة تحويل النص إلى كلام (TTS) متعددة اللغات

الخلاصات

نقدم لكم Fish-Speech، وهو نظام تحويل نص إلى كلام (TTS) متعدد اللغات يعتمد على بنية Transformer الارتدادية الذاتية المتطورة (SoTA).
نستخدم بنية مزدوجة الارتداد الذاتي (dual-AR) مبتكرة لضمان نبرة صوت (prosody) مستقرة وطبيعية.
مرمز صوت Firefly-GAN مع استخدام بنسبة تقارب 100% لقاموس الرموز (codebook) لإنتاج كلام تعبيري.
تم تدريبه على 720 ألف ساعة من البيانات ومصمم لوكلاء الذكاء الاصطناعي في الوقت الفعلي.

Technical Paper: https://arxiv.org/abs/2411.01156

يعتبر Fish-Speech نظاماً جديداً لتحويل النص إلى كلام متعدد اللغات، يدمج قدرات الاستدلال الخاصة بالنماذج اللغوية الكبيرة (LLM) مباشرة في سير عمل معالجة الكلام. وبدلاً من الاعتماد على القواعد الهشة لتحويل الحروف إلى أصوات (grapheme-to-phoneme)، فإنه يستخدم نماذج اللغة لفهم النص بشكل أصيل، مما يجعله أفضل بكثير في التعامل مع التعبيرات متعددة الأصوات، والمحتوى المختلط اللغات، والمدخلات التي تعتمد بشكل كبير على السياق.

بنية الارتداد الذاتي المزدوجة (Dual-AR)

يستخدم النظام نموذج Slow Transformer للهيكل اللغوي عالي المستوى، ونموذج Fast Transformer للتفاصيل الصوتية. تعمل هذه العملية المكونة من مرحلتين على استقرار التوليد، وتحسين استخدام قاموس الرموز (codebook)، وإزالة زمن انتقال الانتشار (diffusion latency). ومع استخدام تقنيات مثل KV-cache وتحسينات أخرى، يمكن لـ Fish-Speech الاستجابة بزمن انتقال للحزمة الأولى يبلغ حوالي 150 مللي ثانية، مما يجعله مثالياً للوكلاء التفاعليين.

مرمز الصوت Firefly-GAN

في طبقة الصوت، يجمع مرمز Firefly-GAN بين التلافيف العميقة/الموسعة (depthwise/dilated convolutions) وتكميم المتجهات العددية المجمعة (grouped scalar vector quantization). يحقق هذا التصميم استخداماً كاملاً تقريباً لقاموس الرموز ويتعامل بكفاءة مع الاصطناع العاطفي ومتعدد اللغات مع الحفاظ على جودة صوت عالية للغاية.

التدريب على نطاق واسع

تم تدريب Fish-Speech على 720,000 ساعة من الصوت متعدد اللغات عبر عائلات اللغات الرئيسية. تساعد مجموعة البيانات المتوازنة النموذج في الحفاظ على جودة ثابتة عبر اللغات واللكنات والسيناريوهات المختلطة.

جودة استنساخ الصوت

يحقق النظام أداءً ريادياً في معدل خطأ الكلمات، وتشابه المتحدث، ومقياس الرأي المتوسط (MOS) - متفوقاً على الخطوط الأساسية القوية وحتى متجاوزاً النصوص الأصلية في معدل خطأ الكلمات (WER). كما يحافظ على نبرة الصوت (timbre) والنبرة التعبيرية (prosody) والهوية بدقة عالية.