شركة OpenAI تكشف عن أداة Voice Engine لإعادة إنشاء الأصوات البشرية

في تطوّر تكنولوجي لا يخلو من المخاطر والتداعيات، كشفت شركة OpenAI صاحبة روبوت المحادثة الأشهر ChatGPT، عن منتج جديد لها، يرتبط بتوليد الأصوات البشرية بدلاً من النصوص والمقالات.

في التفاصيل، أماطت الشركة اللثام عن أداة أطلق عليها اسم “Voice Engine” وهي تتميز بقدرتها على إنشاء نسخة طبق الأصل وواقعية إلى حد مخيف من أي صوت بشري.

أداة جديدة قادرة على استنساخ صوت البشر.. كل ما تريدون معرفته عن Voice Engine

وتعمل “Voice Engine” الخاصة بـ OpenAI، والتي تقول الشركة إنها طورتها لأول مرة في أواخر عام 2022، انطلاقاً من مقطع صوتي مدته 15 ثانية من صوت شخص حقيقي لإنشاء نسخة اصطناعية من هذا الصوت.

واللافت أنه يمكن للمستخدمين جعل هذا الصوت يقول أي شيء، وحتى بلغات أخرى، ومختلفة عن اللغة الأصلية للصوت البشري الأساسي.

وبحسب بيان الشركة، فإن أهداف هذه الأداة تكمن في:

أداة جديدة قادرة على استنساخ صوت البشر.. كل ما تريدون معرفته عن Voice Engine

الوصول إلى المجتمعات العالمية، من خلال تحسين تقديم الخدمات الأساسية في الأماكن النائية، وبالتالي إتاحة المعلومات على شكل تسجيل صوتي أمام جميع الناس خصوصاً في المواضيع الصحية والحياتية
دعم الأشخاص غير اللفظيين، مثل التطبيقات العلاجية للأفراد الذين يعانون من حالات تؤثر على الكلام والتحسينات التعليمية لذوي الاحتياجات التعليمية
مساعدة المرضى على استعادة صوتهم، لمن يعانون من حالات النطق المفاجئة أو غيرها

ماذا عن المخاطر؟

قد تكون الأهداف كثيرة وراء تطوير مثل هذه الأداة، لكن لا شك أن المخاطر أكثر. ويبدو أن شركة OpenAI تدرك أن الأدوات الصوتية التي يتم إنشاؤها بواسطة الذكاء الاصطناعي يمكن أن تكون عملاً محفوفاً بالمخاطر والتداعيات.

فقد أوضحت OpenAI أن “Voice Engine” ليست متاحة للعامة بعد، مشيرةً إلى أنها لا تزال تدرس “ما إذا كان سيتم نشر هذه التكنولوجيا على نطاق واسع وكيفية ذلك”.

وبحسب الشركة، فإنها تتخذ “نهجًا حذرًا ومستنيرًا” لإطلاق البرنامج على نطاق أوسع نظرًا لارتفاع مخاطر إساءة الاستخدام التي تمثلها مولدات الصوت الاصطناعية.

أداة جديدة قادرة على استنساخ صوت البشر.. كل ما تريدون معرفته عن Voice Engine

وكتبت OpenAI في مدونتها: “نحن ندرك أن توليد خطاب يشبه أصوات الناس ينطوي على مخاطر جسيمة، والتي تتصدر قائمة أولوياتنا بشكل خاص في عام الانتخابات”. وقالت: “نحن نتعامل مع الشركاء الأمريكيين والدوليين من مختلف أنحاء الحكومة ووسائل الإعلام والترفيه والتعليم والمجتمع المدني وخارجها لضمان دمج ملاحظاتهم أثناء البناء.”

وفي نهاية العام الماضي، بدأت الشركة في توسيع الأداة خارجيًا، والعمل مع ما وصفته بـ “مجموعة صغيرة من الشركاء الموثوقين” لاختبار المحرك الصوتي لأشياء مثل المواد التعليمية للأطفال، وترجمة اللغات، واستعادة الصوت الطبي، حسبما ذكرت الشركة.

وشددت OpenAI على أن المنظمات الشريكة لها يجب أن تلتزم بالسياسات الصارمة لاستخدام Voice Engine، مثل الحصول على موافقة من كل فرد يتم انتحال شخصيته وإبلاغ المستمعين بأن الصوت تم إنشاؤه بواسطة الذكاء الاصطناعي.

البرنامج ليس الأول

لقد تم بالفعل تطوير برامج مماثلة لـ “Voice Engine” وهي متاحة حاليًا، وقد تم إساءة استخدامها في مكالمات الاحتيال ومخططات التصيد الاحتيالي وغيرها من أشكال الاحتيال.

هناك أيضًا مخاوف من أن مثل هذه البرامج سيتم استخدامها لتكثيف المعلومات السياسية المضللة. وبالفعل، تم استخدام برامج مماثلة في المكالمات الآلية المزيفة التي استخدمت صوت الرئيس الأمريكي جو بايدن لتثبيط التصويت.

وقد أعلنت لجنة الاتصالات الفيدرالية منذ ذلك الحين أن استخدام الأصوات الناتجة عن الذكاء الاصطناعي في المكالمات الآلية الاحتيالية غير قانوني.

أداة جديدة قادرة على استنساخ صوت البشر.. كل ما تريدون معرفته عن Voice Engine

وفي حين أن هناك العديد من الاستخدامات لاستنساخ الأصوات، بما في ذلك الحفاظ على الكلام لأولئك المعرضين لخطر فقدانه بسبب مرض التصلب الجانبي الضموري وأمراض أخرى، فإن سهولة القيام بذلك تؤدي إلى جميع أنواع مخاطر الاحتيال والتضليل، فضلاً عن إمكانية استغلال مثل هذه الأدوات لأغراض شخصية وقد تكون مضرة بالمجتمعات.

والجدير بالذكر أن Apple تقدم خيار الحفاظ على الصوت الذي يسمح للأشخاص بحفظ أصواتهم مع إبقائهم متحكمين. ويتطلب آخرون، مثل HeyGen، موافقة الفيديو قبل السماح للأشخاص بإنشاء صورة رمزية تتحدث وتشبه شخصًا ما.

عام الانتخابات

يأتي هذا التطور التكنولوجي، فيما تتحضر دول عدة من بينها الولايات المتحدة لإقامة انتخابات. وفي هذا السياق، يخشى الباحثون في مجال التضليل الإعلامي من إساءة استخدام تطبيقات الذكاء الاصطناعي التوليدية، وخصوصا أدوات استنساخ الصوت التي تُعدّ رخيصة وسهلة الاستخدام ويصعب تتبعها.

ويتنامى خطر الإعلانات السياسية التي تستخدم تقنية الذكاء الاصطناعي لإنشاء محتوى كاذب وواقعي بشكل خادع – مثل “التزييف العميق”. ومن المعروف أن التزييف العميق ينتج صوراً لأشخاص يفعلون أو يقولون أشياء لم يقولوها أو يفعلونها، وذلك بهدف تضليل الجمهور لا سيما في يتعلق بالمرشحين، ومواقفهم بشأن القضايا. وإذا تركت هذه الاستخدامات الاحتيالية والخادعة للذكاء الاصطناعي دون رادع، فقد تنتهك حق الناخبين الأساسي في اتخاذ قرارات مستنيرة.