Vidu نموذج ذكاء اصطناعي قادر على تحويل أي نص إلى فيديو بنقرة واحدة

كشفت شركة التكنولوجيا الصينية ShengShu-AI وجامعة تسينغهوا السبت عن نموذج Vidu للذكاء الاصطناعي لتحويل النص إلى فيديو، والذي يقال إنه الأول في الصين الذي يضاهي Sora الذي أطلقته مؤخراً شركة أوبن آي.

وتم إطلاق Vidu في منتدى Zhongguancun الجاري في بكين، ويمكنه إنشاء مقطع فيديو مدته 16 ثانية بدقة 1080 بكسل بنقرة واحدة.

وقال المطورون إنه مبني على بنية نموذج التحول البصري التي تم تطويرها ذاتيًا والتي تسمى Universal Vision Transformer (U-ViT) والتي تدمج نموذجين للذكاء الاصطناعي لتحويل النص إلى فيديو من Diffusion وTransformer.

جاء نموذج تحويل النص إلى فيديو بالذكاء الاصطناعي بعد حوالي شهرين فقط من إطلاق Sora، الذي طورته شركة OpenAI والتي يقع مقرها في الولايات المتحدة، وسط ضجة كبيرة في جميع أنحاء العالم.

وقال تشو جون، نائب عميد معهد الذكاء الاصطناعي بجامعة تسينغهوا وكبير العلماء في جامعة شينغشو: “بعد إطلاق سورا، وجدنا أنه يتماشى بشكل وثيق مع خريطة الطريق التقنية لدينا، مما حفزنا أكثر على تطوير أبحاثنا بإصرار”.

محاكاة العالم المادي الحقيقي

وتم اقتراح التكنولوجيا الأساسية لـ U-ViT لأول مرة من قبل فريق بحث Vidu في سبتمبر 2022، قبل بنية نموذج Sora لـ DiT – التنوع في التحول، وهي أول بنية نموذجية للتحول البصري في العالم تجمع بين مزايا الانتشار والمحول، وفقًا لتقارير وسائل الإعلام.

بنقرة واحدة صار بإمكانة تحويل أي نص إلى فيديو.. تعرف إلى Vidu

وخلال عرض حي يوم السبت، يستطيع Vidu محاكاة العالم المادي الحقيقي وإنشاء مشاهد بتفاصيل معقدة تتماشى مع القوانين الفيزيائية الحقيقية، مثل تأثيرات الضوء والظل المعقولة وتعبيرات الوجه الدقيقة.

ويمكنه أيضًا إنشاء لقطات ديناميكية معقدة، بدلاً من اللقطات الثابتة.