عرض لفترة محدودة- خصم 50% سنوياًاسترداد
20 نوفمبر 2025أبحاث

نماذج الانتشار الصوتي (Audio Diffusion Models)

نماذج الانتشار الصوتي (Audio Diffusion Models)

النقاط الرئيسية

  • نطلق Fish Diffusion، وهو إطار عمل مفتوح المصدر لتوليد الصوت
  • Fish Diffusion مفيد لـ TTS و SVC و SVS

GitHub: https://github.com/fishaudio/fish-diffusion

المبدأ الأساسي

في جوهره، تم بناء المستودع حول مبدأ النمطية (Modularity):

  1. يجب أن تكون النماذج الصوتية قابلة للاستبدال (diffusion، Grad-TTS-style، GAN-based).
  2. يجب أن تكون إشارات التكييف (النص، المتحدث، الطبقة، الطاقة) نمطية.

مكدس نمذجة موحد

تشترك جميع الهياكل المعمارية في المستودع في أنماط متشابهة:

  • تأخذ دفعات منظمة بمفاتيح مثل المحتويات (contents)، المتحدث (speaker)، الطبقات (pitches)، الطاقة (energy)، والأطوال (lengths).
  • تبني أقنعة (masks) من أطوال التسلسلات لتجنب حساب الخسارة على الحشو (padding).
  • تنتج إما أطيافًا صوتية (spectrograms) لنماذج الانتشار أو أشكالًا موجية خام (raw waveforms) لنماذج GAN.

تركز النماذج القائمة على الانتشار (مثل مسارات DiffSinger/GradTTS) على توليد ميل-سبيكتروغرام (mel-spectrograms) مشروطة بتمثيل مدمج للنص والعروض الصوتي (prosody). تتجه النماذج بأسلوب HiFiSinger مباشرة إلى الأشكال الموجية، معتمدة على المميزات (discriminators) لفرض الواقعية. بالرغم من هذه الاختلافات، فإنها مرتبطة معًا بنفس تجريدات الإعدادات والتدريب.

تكييف نمطي وسجلات

يعامل Fish Diffusion المشفرات (encoders) وأجهزة التشفير الصوتي (vocoders) كمكونات قابلة للتوصيل. يتم بناء مشفرات النصوص، والمتحدثين، والطبقات، والطاقة من خلال سجلات (registries)، لذا فإن الانتقال من مستخرج ميزات أو فودر إلى آخر هو مجرد تغيير في الإعدادات (config) غالباً.

هذا يجعل المستودع مناسبًا تمامًا لـ:

  • إعدادات المتحدثين المتعددين واستنساخ الصوت
  • المهام التي تركز على العروض الصوتي (الغناء، الكلام العاطفي)
  • التجريب السريع مع مكدسات ميزات أمامية مختلفة

تنطبق نفس الفلسفة على نماذج الانتشار، والجداول (schedulers)، والمحسنات (optimizers)، والتي يتم بناؤها أيضًا من منشئين يعتمدون على السجلات.

جرب أحدث نموذج صوتي رائد لدينا

يمكنك تجربة OpenAudio S1 اليوم:

Shijia Liao

Shijia LiaoX

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

اقرأ المزيد من Shijia Liao

أنشئ أصواتًا تبدو حقيقية

ابدأ في إنشاء أعلى جودة صوت اليوم

هل لديك حساب بالفعل؟ تسجيل الدخول