حذرت شركة “OpenAI” الأمريكية للذكاء الاصطناعي من خطورة أداة استنساخ الأصوات التي ابتكرتها، وخلصت في تقييم لها بأنها شديدة الخطورة ولا يمكن إتاحتها للإصدار العام، وفق ما جاء في تقرير لصحيفة The Guardian البريطانية، الأحد 31 مارس/آذار 2024.
حسب تقرير الصحيفة فإن شركة “أوبن إيه آي” OpenAI خلصت إلى أن أداتها البرمجية التي أنتجتها حديثاً، ويمكنها إنشاء نسخة مُقنِعة لصوت أي شخص باستخدام 15 ثانية فقط من تسجيل صوتي له، أداةٌ محفوفة بالمخاطر.
كما أضافت الشركة الأمريكية أنه لا يجدر بها أن تتيح أداة استنساخ الأصوات للإصدار العام، لا سيما أنها تسعى إلى تقليل خطر استخدام تطبيقاتها البرمجية بطريقة ضارة لنشر معلومات خطأ أو مضللة في عام تشهد فيه دول عديدة انتخابات مهمة.
ما الذي يخيف في أداة استنساخ الأصوات؟
ابتكرت OpenAI أداتها البرمجية “فويس إنجن” Voice Engine لأول مرة في عام 2022، وكشف موقع Yahoo أن الشركة استخدمت إصداراً أولياً من التطبيق في توفير خاصية “تحويل النص إلى كلام” التي أدرجتها في تطبيقها الرائد للذكاء الاصطناعي ChatGPT.
لكن الشركة لم تكشف علناً قط عن القوة الكاملة في أداة استنساخ الأصوات البرمجية، وترجع بعض أسباب ذلك إلى نهج “الحذر وجمع المعلومات” الذي تتبعه الشركة بشأن أدواتها البرمجية وآثارها المتوقعة قبل إطلاقها للإصدار الواسع.
بينما قالت OpenAI في تدوينة غير موقعة: “نأمل أن نبدأ حواراً حول النشر المسؤول للنسخ الصوتية المولدة بالذكاء الاصطناعي، وكيف يمكن للمجتمع أن يتكيف مع هذه القدرات الجديدة”.
كما أضافت: “نرى أننا بالاستناد إلى هذا الحوار ونتائج هذه الاختبارات صغيرة النطاق، سنتخذ قراراً أكثر تبصراً بآثار نشر هذه الأداة التكنولوجية على نطاق واسع، وما إذا كنا سنفعل ذلك أم لا، والكيفية السديدة لفعل ذلك”.
فيما أوردت الشركة في منشورها أمثلة على استخدامات واقعية لأداة استنساخ الأصوات من شركاء مختلفين أتاحت لهم الوصول إلى هذه الأداة لبناء تطبيقاتهم ومنتجاتهم.
إذ تبيَّن أن شركة تكنولوجيا التعليم Age of Learning استخدمت “فويس إنجن” لإنشاء تعليقات صوتية مكتوبة؛ واستخدمت تطبيق “السرد القصصي المرئي بالذكاء الاصطناعي” HeyGen لكي يتيح للمستخدمين إمكان إنشاء ترجمات دقيقة للمحتوى المسجل بلهجةِ المتحدث الأصلي وصوته. بحيث يمكن مثلاً استخدام عينة صوتية مسجلة لمتحدث فرنسي في إنتاج محتوى مترجم إلى اللغة الإنجليزية بلكنة فرنسية.
جديرٌ بالذكر أن باحثين في معهد “نورمان برينس لعلوم الأعصاب” الأمريكي استطاعوا أن يستخدموا مقطعاً قليل الجودة مدته 15 ثانية لامرأة شابة تقدم عرضاً تقديمياً في مشروع مدرسي، واعتمدوا عليه من أجل إعادة بناء صوتها و”استعادة الصوت” الذي فقدته بسبب ورم في المخ.
تدابير لمواجهة خطورتها
بينما قال مختبر OpenAI للذكاء الاصطناعي: “نحن نستعرض هذه التكنولوجيا، ولم ننشرها على نطاق واسع حتى الآن”، من أجل “تعزيز قدرات المجتمع في مواجهة التحديات التي يفرضها هذا النوع من النماذج التوليدية المقنعة أكثر من أي نموذج عُرف من قبل”.
كما أضاف أنه بناءً على ما تتيحه هذه الأداة، فإننا “نحث على اتخاذ خطوات عدة، منها الإلغاء التدريجي للتصديق الصوتي ضمن التدابير الأمنية الموثوقة للوصول إلى الحسابات المصرفية، وغيرها من المعلومات الحساسة”.
فيما دعا المختبر كذلك إلى استكشاف “سياسات لحماية أصوات الأفراد المتاحة للاستخدام بأدوات الذكاء الاصطناعي”، و”تثقيف الجمهور في فهم قدرات تكنولوجيا الذكاء الاصطناعي وقيودها، ومنها إمكانية استخدام محتوى الذكاء الاصطناعي للخداع”.
كما قالت OpenAI إن الإصدارات الأولية التي ابتكرتها من أداة استنساخ الأصوات “فويس إنجن” تحمل علامة مائية، ما يُتيح للشركة تتبع أصل أي صوت استُخدم تطبيق الذكاء الاصطناعي في توليد نسخ صوتية منه، و”تتطلب شروطنا مع هؤلاء الشركاء في الوقت الحالي موافقة صريحة وواعية من المتحدث الأصلي، ولا نسمح للمطورين بإتاحة وسائل للمستخدمين الأفراد من أجل استخدام التطبيق في توليد نسخ صوتية خاصة بهم”.
مع ذلك، أشارت صحيفة The Guardian البريطانية إلى أن الأداة التي ابتكرتها OpenAI، وإن كانت تتميز عن غيرها بالسهولة التقنية الكبيرة والاحتياج إلى محتوى قصير من الصوت الأصلي لإنشاء نسخة مقنعة، فإن ذلك لا يمنع أن لديها منافسين أتاحوا بالفعل إصداراتهم للجمهور.
فشركة ElevenLabs، على سبيل المثال، يمكنها باستخدام “بضع دقائق فقط من الصوت” أن تولِّد نسخة صوتية كاملة، وقد فرضت الشركة بعض القيود للحيلولة دون استخدام تطبيقها في محاكاة أصوات السياسيين المرشحين لمناصب رئاسية في الولايات المتحدة وأوروبا وبريطانيا.