مايكروسوفت تطلق نموذجاً للذكاء الاصطناعي يجعل الصور تتحدث

أعلنت شركة “مايكروسوفت” عن نموذج جديد للذكاء الاصطناعي يمكنه توليد مقاطع فيديو واقعية للغاية لوجوه بشرية تتحدث، يحمل اسم “فازا 1” (vasa 1).

وتقول الشركة إن مقاطع الفيديو المولدة تحتوي حركات الشفاه المتزامنة لتتناسب مع الصوت بالإضافة إلى تعبيرات الوجه وحركة الرأس لجعلها تبدو طبيعية.

ولا تنوي “مايكروسوفت” إطلاق منتج أو واجهة برمجة تطبيقات تستفيد من نموذج “فازا 1” نظرًا إلى الخطر الواضح المتمثل في توليد التزييف العميق من هذه التكنولوجيا.

Microsoft just dropped VASA-1.

This AI can make single image sing and talk from audio reference expressively. Similar to EMO from Alibaba

10 wild examples:

1. Mona Lisa rapping Paparazzi pic.twitter.com/LSGF3mMVnD

— Min Choi (@minchoi) April 18, 2024

وفصلت “مايكروسوفت” طريقة عمل نموذج الذكاء الاصطناعي، وسلطت الضوء على قدراته. وتدعي الشركة أن النموذج قادر على توليد مقاطع فيديو بدقة قدرها 512×512 بكسل بمعدل يصل إلى 40 إطارًا في الثانية.

الموناليزا تغني!.. مايكروسوفت تطلق نموذجاً للذكاء الاصطناعي يحول الصور إلى فيديو

ويدعم نموذج الذكاء الاصطناعي توليد الفيديو عبر الإنترنت مع زمن تأخر لا يكاد يذكر. ويقدم “فازا 1” ما يصل إلى دقيقة واحدة من مقاطع الفيديو بجودة عالية من خلال صورة ثابتة واحدة.

وسلطت الشركة الضوء على قدرته على توليد حركات الشفاه المتوافقة مع الملف الصوتي وتعبيرات الوجه التي تتماشى معه.

The First AI-Generated Video That Looks Super Real

Microsoft Research announced VASA-1.

It takes a single portrait photo and speech audio and produces a hyper-realistic talking face video with precise lip-audio sync, lifelike facial behavior, and naturalistic head movements… pic.twitter.com/6bxd4mEgFR

— Bindu Reddy (@bindureddy) April 17, 2024

ويوفر نموذج توليد الفيديو بتقنية الذكاء الاصطناعي تحكمًا دقيقًا للمستخدم في جوانب مختلفة من الفيديو، مثل الاتجاه الرئيسي لنظرة العين ومسافة الرأس والمزيد.

وتساعد هذه العناصر في التحكم في وضعية الرأس الثلاثية الأبعاد وديناميكيات الوجه، ما يساعد في تعديل الإخراج وفقًا لتوجيهات المستخدم.

كما أن نموذج الذكاء الاصطناعي قادر أيضًا على توليد مقاطع فيديو باستخدام الصور الفنية والصوت الغنائي والكلام غير الإنكليزي.

وأكدت مايكروسوفت إلى أنه مع الاعتراف بإمكانية سوء الاستخدام، فمن الضروري أن ندرك الإمكانات الإيجابية الكبيرة لتقنيتنا، مثل تعزيز المساواة التعليمية وتحسين إمكانية الوصول للأفراد الذين يعانون من تحديات التواصل وتقديم الرفقة أو الدعم العلاجي للمحتاجين، نحن ملتزمون بتطوير الذكاء الاصطناعي المسؤول بهدف تعزيز رفاهية الإنسان”.