AI translatedالعربية English

20 نوفمبر 2025أبحاث

نماذج الانتشار الصوتي (Audio Diffusion Models)

Shijia Liao, Chief Scientist

نماذج الانتشار الصوتي (Audio Diffusion Models)

النقاط الرئيسية

نطلق Fish Diffusion، وهو إطار عمل مفتوح المصدر لتوليد الصوت
Fish Diffusion مفيد لـ TTS و SVC و SVS

GitHub: https://github.com/fishaudio/fish-diffusion

المبدأ الأساسي

في جوهره، تم بناء المستودع حول مبدأ النمطية (Modularity):

يجب أن تكون النماذج الصوتية قابلة للاستبدال (diffusion، Grad-TTS-style، GAN-based).
يجب أن تكون إشارات التكييف (النص، المتحدث، الطبقة، الطاقة) نمطية.

مكدس نمذجة موحد

تشترك جميع الهياكل المعمارية في المستودع في أنماط متشابهة:

تأخذ دفعات منظمة بمفاتيح مثل المحتويات (contents)، المتحدث (speaker)، الطبقات (pitches)، الطاقة (energy)، والأطوال (lengths).
تبني أقنعة (masks) من أطوال التسلسلات لتجنب حساب الخسارة على الحشو (padding).
تنتج إما أطيافًا صوتية (spectrograms) لنماذج الانتشار أو أشكالًا موجية خام (raw waveforms) لنماذج GAN.

تركز النماذج القائمة على الانتشار (مثل مسارات DiffSinger/GradTTS) على توليد ميل-سبيكتروغرام (mel-spectrograms) مشروطة بتمثيل مدمج للنص والعروض الصوتي (prosody). تتجه النماذج بأسلوب HiFiSinger مباشرة إلى الأشكال الموجية، معتمدة على المميزات (discriminators) لفرض الواقعية. بالرغم من هذه الاختلافات، فإنها مرتبطة معًا بنفس تجريدات الإعدادات والتدريب.

تكييف نمطي وسجلات

يعامل Fish Diffusion المشفرات (encoders) وأجهزة التشفير الصوتي (vocoders) كمكونات قابلة للتوصيل. يتم بناء مشفرات النصوص، والمتحدثين، والطبقات، والطاقة من خلال سجلات (registries)، لذا فإن الانتقال من مستخرج ميزات أو فودر إلى آخر هو مجرد تغيير في الإعدادات (config) غالباً.

هذا يجعل المستودع مناسبًا تمامًا لـ:

إعدادات المتحدثين المتعددين واستنساخ الصوت
المهام التي تركز على العروض الصوتي (الغناء، الكلام العاطفي)
التجريب السريع مع مكدسات ميزات أمامية مختلفة

تنطبق نفس الفلسفة على نماذج الانتشار، والجداول (schedulers)، والمحسنات (optimizers)، والتي يتم بناؤها أيضًا من منشئين يعتمدون على السجلات.

جرب أحدث نموذج صوتي رائد لدينا

يمكنك تجربة OpenAudio S1 اليوم:

Fish Audio Playground (S1): https://fish.audio
S1-mini على Hugging Face: https://huggingface.co/fishaudio/openaudio-s1-mini

Shijia Liao

Lengyue is the founder of Fish Audio and a cracked researcher pushing breakthroughs in Voice AI. Follow his work at @lengyuematrix.

اقرأ المزيد من Shijia Liao

أنشئ أصواتًا تبدو حقيقية

ابدأ في إنشاء أعلى جودة صوت اليوم

سجل مجانًا

هل لديك حساب بالفعل؟ تسجيل الدخول

Last Updates

Fish Audio STT — قم بتفريغ البودكاست الخاص بك مع Fish Audio

27 مارس 2026تفريغ البودكاست

أداة تفريغ البودكاست — كيفية تفريغ البودكاست الخاص بك باستخدام Fish Audio

Sabrina ShuSupport & Marketing Specialist

أفضل تقنية TTS بالذكاء الاصطناعي للفرق الإبداعية! شرح خطة فريق Fish Audio

19 مارس 2026دليل

أفضل تقنية TTS بالذكاء الاصطناعي للفرق الإبداعية! شرح خطة الفريق من Fish Audio

Sabrina ShuSupport & Marketing Specialist

15 مارس 2026دليل

موسيقى خلفية بالذكاء الاصطناعي خالية من حقوق الملكية للإعلانات والألعاب والبودكاست

Kyle CuiAI Systems Engineer

نماذج الانتشار الصوتي (Audio Diffusion Models)

النقاط الرئيسية

المبدأ الأساسي

مكدس نمذجة موحد

تكييف نمطي وسجلات

جرب أحدث نموذج صوتي رائد لدينا

أنشئ أصواتًا تبدو حقيقية

Last Updates

أداة تفريغ البودكاست — كيفية تفريغ البودكاست الخاص بك باستخدام Fish Audio

أفضل تقنية TTS بالذكاء الاصطناعي للفرق الإبداعية! شرح خطة الفريق من Fish Audio

موسيقى خلفية بالذكاء الاصطناعي خالية من حقوق الملكية للإعلانات والألعاب والبودكاست

Recommended

أداة تفريغ البودكاست — كيفية تفريغ البودكاست الخاص بك باستخدام Fish Audio

أفضل تقنية TTS بالذكاء الاصطناعي للفرق الإبداعية! شرح خطة الفريق من Fish Audio

Fish Audio S2! تحكم دقيق في صوت الذكاء الاصطناعي على مستوى الكلمة

Fish Audio تطلق نموذج S2 مفتوح المصدر: تحكم دقيق يلبي متطلبات البث المباشر للإنتاج

كيفية استخدام SAM Audio لفصل الصوت خطوة بخطوة

إطلاق Fish Audio S1: نموذج أساسي رائد لتحويل النص إلى كلام