نماذج الانتشار الصوتي (Audio Diffusion Models)

النقاط الرئيسية
- نطلق Fish Diffusion، وهو إطار عمل مفتوح المصدر لتوليد الصوت
- Fish Diffusion مفيد لـ TTS و SVC و SVS
GitHub: https://github.com/fishaudio/fish-diffusion
المبدأ الأساسي
في جوهره، تم بناء المستودع حول مبدأ النمطية (Modularity):
- يجب أن تكون النماذج الصوتية قابلة للاستبدال (diffusion، Grad-TTS-style، GAN-based).
- يجب أن تكون إشارات التكييف (النص، المتحدث، الطبقة، الطاقة) نمطية.
مكدس نمذجة موحد
تشترك جميع الهياكل المعمارية في المستودع في أنماط متشابهة:
- تأخذ دفعات منظمة بمفاتيح مثل المحتويات (contents)، المتحدث (speaker)، الطبقات (pitches)، الطاقة (energy)، والأطوال (lengths).
- تبني أقنعة (masks) من أطوال التسلسلات لتجنب حساب الخسارة على الحشو (padding).
- تنتج إما أطيافًا صوتية (spectrograms) لنماذج الانتشار أو أشكالًا موجية خام (raw waveforms) لنماذج GAN.
تركز النماذج القائمة على الانتشار (مثل مسارات DiffSinger/GradTTS) على توليد ميل-سبيكتروغرام (mel-spectrograms) مشروطة بتمثيل مدمج للنص والعروض الصوتي (prosody). تتجه النماذج بأسلوب HiFiSinger مباشرة إلى الأشكال الموجية، معتمدة على المميزات (discriminators) لفرض الواقعية. بالرغم من هذه الاختلافات، فإنها مرتبطة معًا بنفس تجريدات الإعدادات والتدريب.
تكييف نمطي وسجلات
يعامل Fish Diffusion المشفرات (encoders) وأجهزة التشفير الصوتي (vocoders) كمكونات قابلة للتوصيل. يتم بناء مشفرات النصوص، والمتحدثين، والطبقات، والطاقة من خلال سجلات (registries)، لذا فإن الانتقال من مستخرج ميزات أو فودر إلى آخر هو مجرد تغيير في الإعدادات (config) غالباً.
هذا يجعل المستودع مناسبًا تمامًا لـ:
- إعدادات المتحدثين المتعددين واستنساخ الصوت
- المهام التي تركز على العروض الصوتي (الغناء، الكلام العاطفي)
- التجريب السريع مع مكدسات ميزات أمامية مختلفة
تنطبق نفس الفلسفة على نماذج الانتشار، والجداول (schedulers)، والمحسنات (optimizers)، والتي يتم بناؤها أيضًا من منشئين يعتمدون على السجلات.
جرب أحدث نموذج صوتي رائد لدينا
يمكنك تجربة OpenAudio S1 اليوم:
- Fish Audio Playground (S1): https://fish.audio
- S1-mini على Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.
اقرأ المزيد من Shijia Liao

