Vidu نموذج ذكاء اصطناعي قادر على تحويل أي نص إلى فيديو بنقرة واحدة
كشفت شركة التكنولوجيا الصينية ShengShu-AI وجامعة تسينغهوا السبت عن نموذج Vidu للذكاء الاصطناعي لتحويل النص إلى فيديو، والذي يقال إنه الأول في الصين الذي يضاهي Sora الذي أطلقته مؤخراً شركة أوبن آي.
It's been an insane week for AI (part 2)
Here are 14 most impressive reveals from this week:
1/ China just released OpenAI’s Sora rival “Vidu” which can create realistic clips in seconds.pic.twitter.com/MnTv9Wxpef
— Barsee 🐶 (@heyBarsee) April 27, 2024
وتم إطلاق Vidu في منتدى Zhongguancun الجاري في بكين، ويمكنه إنشاء مقطع فيديو مدته 16 ثانية بدقة 1080 بكسل بنقرة واحدة.
وقال المطورون إنه مبني على بنية نموذج التحول البصري التي تم تطويرها ذاتيًا والتي تسمى Universal Vision Transformer (U-ViT) والتي تدمج نموذجين للذكاء الاصطناعي لتحويل النص إلى فيديو من Diffusion وTransformer.
جاء نموذج تحويل النص إلى فيديو بالذكاء الاصطناعي بعد حوالي شهرين فقط من إطلاق Sora، الذي طورته شركة OpenAI والتي يقع مقرها في الولايات المتحدة، وسط ضجة كبيرة في جميع أنحاء العالم.
وقال تشو جون، نائب عميد معهد الذكاء الاصطناعي بجامعة تسينغهوا وكبير العلماء في جامعة شينغشو: “بعد إطلاق سورا، وجدنا أنه يتماشى بشكل وثيق مع خريطة الطريق التقنية لدينا، مما حفزنا أكثر على تطوير أبحاثنا بإصرار”.
China just debuted their #SORA competitor: Vidu AI
It can create up to 16 seconds of 1080p video.
How do you think it compares to Sora? pic.twitter.com/xYvBJbkoKC
— Andrew Gao (@itsandrewgao) April 27, 2024
محاكاة العالم المادي الحقيقي
وتم اقتراح التكنولوجيا الأساسية لـ U-ViT لأول مرة من قبل فريق بحث Vidu في سبتمبر 2022، قبل بنية نموذج Sora لـ DiT – التنوع في التحول، وهي أول بنية نموذجية للتحول البصري في العالم تجمع بين مزايا الانتشار والمحول، وفقًا لتقارير وسائل الإعلام.
وخلال عرض حي يوم السبت، يستطيع Vidu محاكاة العالم المادي الحقيقي وإنشاء مشاهد بتفاصيل معقدة تتماشى مع القوانين الفيزيائية الحقيقية، مثل تأثيرات الضوء والظل المعقولة وتعبيرات الوجه الدقيقة.
ويمكنه أيضًا إنشاء لقطات ديناميكية معقدة، بدلاً من اللقطات الثابتة.