الأحد - 28 ديسمبر / كانون الأول 2025
الطقس
تكنولوجيا

علي بابا تطلق أدوات ذكاء اصطناعي لتوليد الأصوات واستنساخها

تابع آخر الأخبار على واتساب

نماذج توليد الأصوات من علي بابا تتفوق على GPT-4o و ElevenLabs

الـخـلاصـة حول نماذج توليد الأصوات

📑 محتويات:

أعلنت علي بابا كلاود عن إطلاق جيل جديد من **نماذج توليد الأصوات** ضمن عائلة Qwen3، بهدف تعزيز صناعة المحتوى الاحترافي. يتضمن الإطلاق نموذجين رئيسيين: الأول، Qwen3-TTS-VD-Flash، الذي يتيح إنشاء أصوات مفصلة عبر أوامر نصية تحدد المشاعر ونبرة الصوت، مؤكدةً تفوقه على واجهة GPT-4o mini-tts. أما النموذج الثاني، Qwen3-TTS-VC-Flash، فيختص باستنساخ الأصوات بدقة مذهلة، إذ يمكنه نسخ صوت شخص من مقطع لا يتجاوز ثلاث ثوانٍ وإعادة إنتاجه بعشر لغات مختلفة، محققاً معدل أخطاء أقل من منافسين مثل ElevenLabs. وتفتح هذه الأدوات المجال أمام تطبيقات واسعة في الدبلجة والإعلانات والألعاب، مما يقلل التكلفة والوقت مقارنةً بالتسجيل التقليدي.

📎 المختصر المفيد:
• أطلقت علي بابا كلاود نموذجين جديدين من عائلة Qwen3 للذكاء الاصطناعي متخصصين في توليد واستنساخ الأصوات.
• نموذج Qwen3-TTS-VD-Flash يتيح إنشاء أصوات مفصلة عبر أوامر نصية تحدد المشاعر ونبرة الصوت.
• نموذج Qwen3-TTS-VC-Flash يستطيع استنساخ صوت شخص من مقطع لا يتجاوز ثلاث ثوانٍ، ويدعم 10 لغات.
• تؤكد علي بابا تفوق نماذجها على منافسين بارزين مثل GPT-4o mini-tts و ElevenLabs.
• تتوفر الأدوات الجديدة عبر واجهة برمجة التطبيقات الخاصة بعلي بابا كلاود، ونسخ تجريبية على Hugging Face.

ℹ️ خلاصة مختصرة لأهم ما جاء في الخبر قبل التفاصيل

أعلنت شركة علي بابا كلاود عن إطلاق نموذجين جديدين من عائلة Qwen3 للذكاء الاصطناعي، يركزان على توليد الأصوات واستنساخها باستخدام أوامر نصية، في خطوة تستهدف تعزيز تطبيقات الصوت الاحترافية وصناعة المحتوى.



ويحمل أول نموذج اسم Qwen3-TTS-VD-Flash، ويتيح للمستخدمين إنشاء أصوات اعتمادًا على أوصاف تفصيلية، مثل تحديد المشاعر ونبرة الصوت وسرعة الإلقاء.

ووفقًا للشركة، يمكن للمستخدم طلب صوت بمواصفات دقيقة مثل العمر ونوع الصوت والأسلوب، مما يمنح تحكمًا واسعًا في المخرجات الصوتية.

وتؤكد علي بابا أن النموذج يتفوق في الأداء على واجهة OpenAI الخاصة بنموذج GPT-4o mini-tts الذي أُطلق في وقت سابق هذا العام.

وأما النموذج الثاني، Qwen3-TTS-VC-Flash، فيختص باستنساخ الأصوات، إذ يستطيع نسخ صوت شخص اعتمادًا على مقطع صوتي لا يتجاوز ثلاث ثوانٍ، مع إعادة إنتاجه بعشر لغات مختلفة. وتقول الشركة إن النموذج يحقق معدل أخطاء أقل مقارنةً بمنافسين بارزين مثل ElevenLabs و MiniMax.

وبحسب علي بابا، فإن النماذج الجديدة تتميز بقدرتها على التعامل مع نصوص معقدة، وتقليد أصوات الحيوانات، واستخراج الأصوات من التسجيلات الصوتية. وتتوفر الأداتان عبر واجهة برمجة التطبيقات الخاصة بعلي بابا كلاود، مع إتاحة نسخ تجريبية للنموذجين عبر منصة Hugging Face.

ويأتي إطلاق نماذج Qwen3 الجديدة في وقت تشهد فيه سوق توليد الأصوات بالذكاء الاصطناعي منافسة متصاعدة، مدفوعة بالطلب المتزايد من قطاعات مثل الإعلانات والألعاب وصناعة الفيديو.

وتفتح النماذج الجديدة المجال أمام استخدامات متعددة، منها إنتاج الإعلانات الصوتية، والدبلجة المتعددة اللغات، وصناعة الشخصيات الصوتية في الألعاب، إضافةً إلى دعم منصات التعليم الإلكتروني وخدمات مراكز الاتصال، مع تقليل الوقت والتكلفة مقارنةً بأساليب التسجيل التقليدية.

🔍 تحليل نماذج توليد الأصوات وتفاصيل إضافية

تُشير هذه التطورات بوضوح إلى تصاعد الحرب الباردة التكنولوجية بين الولايات المتحدة والصين، حيث تسعى بكين، ممثلة بعلي بابا، إلى تحقيق التفوق النوعي في مجالات الذكاء الاصطناعي التطبيقي. إن إطلاق **نماذج توليد الأصوات** القادرة على التفوق على عمالقة مثل OpenAI و ElevenLabs ليس مجرد تحدٍ تقني، بل هو استراتيجية لترسيخ البنية التحتية الصينية في الأسواق العالمية، خاصةً في مناطق آسيا وأفريقيا التي تعتمد على الدبلجة السريعة والمحتوى متعدد اللغات. وتعتبر قدرة النموذج على استنساخ الأصوات بعشر لغات خلال ثلاث ثوانٍ فقط نقطة تحول حاسمة، لأنها تخفض حاجز التكلفة والوقت بشكل جذري، مما يجعل حلول علي بابا أكثر جاذبية للشركات الناشئة ومنصات التعليم الإلكتروني العالمية. هذا التركيز على الكفاءة والسرعة يهدف إلى الهيمنة على سوق المحتوى الصوتي الذي يشهد نمواً هائلاً. كما أن تطوير **نماذج توليد الأصوات** بهذه الدقة يثير تساؤلات حول التنظيم والأمان، خاصةً في ظل المخاوف المتزايدة من الأصوات المزيفة (Deepfakes)، مما يضع ضغوطاً على علي بابا لضمان الاستخدام الأخلاقي. إن المنافسة في تطوير **نماذج توليد الأصوات** هي الآن معركة على البنية التحتية للمستقبل الرقمي.

💡 إضاءة: القدرة على استنساخ صوت شخص ما اعتماداً على مقطع صوتي لا يتجاوز ثلاث ثوانٍ، وإعادة إنتاجه بعشر لغات مختلفة.

❓ حقائق خفية حول ثورة علي بابا الصوتية

شو اسم النماذج الجديدة تبعت علي بابا؟
النماذج الجديدة هي Qwen3-TTS-VD-Flash لتوليد الأصوات، و Qwen3-TTS-VC-Flash لاستنساخ الأصوات.
كيف نموذج توليد الأصوات بيشتغل؟
يعمل النموذج اعتماداً على أوصاف نصية مفصلة يحدد فيها المستخدم المشاعر ونبرة الصوت وسرعة الإلقاء.
هل النماذج هاي أحسن من GPT-4o؟
تؤكد علي بابا أن نموذج Qwen3-TTS-VD-Flash يتفوق في الأداء على واجهة OpenAI الخاصة بنموذج GPT-4o mini-tts.
كم ثانية تسجيل لازم عشان أقدر أنسخ صوتي؟
يتطلب نموذج Qwen3-TTS-VC-Flash مقطعاً صوتياً لا يتجاوز ثلاث ثوانٍ لاستنساخ الصوت.
شو اللغات اللي بيدعمها نموذج استنساخ الأصوات؟
يستطيع النموذج إعادة إنتاج الصوت المستنسخ بعشر لغات مختلفة.
وين بقدر أجرب هاي الأدوات؟
تتوفر الأدوات عبر واجهة برمجة التطبيقات الخاصة بعلي بابا كلاود، مع إتاحة نسخ تجريبية عبر منصة Hugging Face.
×

🧥 شو نلبس بكرا؟