VLOGGER.. أداة تحول الصور الثابتة لمقاطع فيديو تظهر الأشخاص يتحدثون ويتحركون بإيماءات مختلفة

طور باحثو غوغل نظامًا جديدًا للذكاء الاصطناعي يمكنه إنشاء مقاطع فيديو واقعية لأشخاص يتحدثون ويحركون ويتحركون، من مجرد صورة ثابتة واحدة.

وتعتمد هذه التقنية، التي تسمى VLOGGER، على نماذج التعلم الآلي المتقدمة لتجميع لقطات واقعية بشكل مذهل، وفتح مجموعة من التطبيقات المحتملة.

وترى Google أن VLOGGER هو خطوة نحو تقديم “وكلاء المحادثة” الذين يمكنهم التفاعل مع الأشخاص بشكل طبيعي من خلال الكلام والإيماءات والتواصل البصري.

وبينما تفتح هذه التكنولوجيا عددًا من التطبيقات المحتملة، فإنها تثير أيضًا مخاوف بشأن خلق تزييف دبلوماسي ونشر معلومات مضللة.

بالإضافة إلى ذلك، لا يزال لدى VLOGGER قيود، فمقاطع الفيديو التي تم إنشاؤها قصيرة نسبيًا ولها خلفية ثابتة.

المدهش في التقنية الجديدة VLOGGER أنها تحول الصور الثابتة لمقاطع فيديو تظهر الأشخاص يتحدثون ويتحركون بإيماءات مختلفة، ويعتمد نموذج الذكاء الاصطناعي في تكوين هذا الفيديو على صورة ومقطع صوت للشخص كمدخلات يتم معالجتها واستخراج مقطع فيديو نهائي يطابق الصوت.

ووفقا لما ذكر في موقع venturebeat، فإن التقنية الجديدة Vlogger تفتقر للدقة حيث أن مقاطع الفيديو لا تظهر بالصورة المثالية المتوقعة، ومن ثم يمكن التنبؤ بأنها معدلة بالذكاء الاصطناعي، إلا أنها وبلا شك تمثل قفزة في مجال تحريك الصور وتحويلها لمقاطع فيديو.

وبتطوير الأداة وتدريبها تم توسيع الميزة لتشمل إنتاج مقاطع الفيديو من خلال قراءة مجموعة من البيانات، وبإمكان تقنيةVLOGGER  إنشاء مقاطع فيديو لأشخاص من جنسيات وأعمار مختلفة، كذلك بمواصفات وملابس وأوضاع وبيئات متنوعة.

وتأتي التقنية الجديدة لتشمل سلسلة من المزايا منها القدرة على دبلجة مقاطع الفيديو تلقائيا إلى لغات أخرى، إضافة لإنشاء مساعدين افتراضيين وروبوتات دردشة مدعومة بالذكاء الاصطناعي تكون أكثر جاذبية وتعبيراً، كما يمكن الاستفادة منه في العروض التقديمية والتعليم، ورغم الطفرة التي يقدمها Vlogger إلا أنه يفتقر لبعض المزايا، خاصة وأن قدرته على إنشاء مقاطع الفيديو قصيرة نسبيا، كما أن الأفراد لا يتحركون في بيئة ثلاثية الأبعاد بشكل يبدو واقعي.

مميزات قوية للأداة الجديدة لا يمكنك تفويتها

  • تحويل صورة واحدة إلى مقاطع فيديو ناطقة

تعمل هذه الاداة المدعومة بالذكاء الاصطناعي على تحويل صورة واحدة وصوت واحد إلى مقاطع فيديو ناطقة واقعية!

  • الترجمة

تستطيع VLOGGER ترجمة مقطع فيديو موجودًا بلغة معينة، وتقوم بتحرير مناطق العيون والوجه ليتوافق مع الأصوات الجديدة، على سبيل المثال بالإسبانية كما هو موضح في هذه التغريدة.

  •  تحرير الفيديو

هذا الذكاء الاصطناعي ليس مخصصًا فقط للتعديلات البسيطة فيمكنه إضفاء الحيوية على تعابير الوجه وحركاته الجديدة، مما يفتح إمكانيات إبداعية لا حصر لها.

  • التنوع

يقوم هذا النموذج بإنشاء مقاطع فيديو متنوعة بالحركة والواقعية. يظهر تنوع البكسل من 80 مقطع فيديو على اليمين: يشير اللون الأحمر إلى تنوع ألوان أعلى من الحركة الكبيرة مع الحفاظ على المظهر الواقعي.

كيف يعمل VLOGGER

يستخدم الذكاء الاصطناعي هذا الكشف عن معالم الوجه ونماذج الشبكة العصبية لمزامنة حركات الشفاه والتعبيرات النابضة بالحياة مع الصوت.

ولإنشاء النظام، استخدم المطورون مجموعة بيانات تحتوي على أكثر من 800 ألف هوية مختلفة و2200 ساعة من الفيديو. سمح هذا لـ VLOGGER بتعلم كيفية إنشاء مقاطع فيديو عن أشخاص من أعراق وأعمار وملابس وبيئات مختلفة وما إلى ذلك.