بنقرة واحدة صار بإمكانة تحويل أي نص إلى فيديو.. تعرف إلى Vidu

29/04/2024 · 10:45

إطلاق نموذج الذكاء الاصطناعي Vidu لتحويل النص إلى فيديو في منتدى تشونغ قوان تسون 2024 في 27 أبريل 2024. (منصة X)

بكين (أخبار الآن)

Vidu نموذج ذكاء اصطناعي قادر على تحويل أي نص إلى فيديو بنقرة واحدة

كشفت شركة التكنولوجيا الصينية ShengShu-AI وجامعة تسينغهوا السبت عن نموذج Vidu للذكاء الاصطناعي لتحويل النص إلى فيديو، والذي يقال إنه الأول في الصين الذي يضاهي Sora الذي أطلقته مؤخراً شركة أوبن آي.

It's been an insane week for AI (part 2)

Here are 14 most impressive reveals from this week:

1/ China just released OpenAI’s Sora rival “Vidu” which can create realistic clips in seconds.pic.twitter.com/MnTv9Wxpef

— Barsee 🐶 (@heyBarsee) April 27, 2024

وتم إطلاق Vidu في منتدى Zhongguancun الجاري في بكين، ويمكنه إنشاء مقطع فيديو مدته 16 ثانية بدقة 1080 بكسل بنقرة واحدة.

وقال المطورون إنه مبني على بنية نموذج التحول البصري التي تم تطويرها ذاتيًا والتي تسمى Universal Vision Transformer (U-ViT) والتي تدمج نموذجين للذكاء الاصطناعي لتحويل النص إلى فيديو من Diffusion وTransformer.

جاء نموذج تحويل النص إلى فيديو بالذكاء الاصطناعي بعد حوالي شهرين فقط من إطلاق Sora، الذي طورته شركة OpenAI والتي يقع مقرها في الولايات المتحدة، وسط ضجة كبيرة في جميع أنحاء العالم.

وقال تشو جون، نائب عميد معهد الذكاء الاصطناعي بجامعة تسينغهوا وكبير العلماء في جامعة شينغشو: “بعد إطلاق سورا، وجدنا أنه يتماشى بشكل وثيق مع خريطة الطريق التقنية لدينا، مما حفزنا أكثر على تطوير أبحاثنا بإصرار”.

China just debuted their #SORA competitor: Vidu AI

It can create up to 16 seconds of 1080p video.

How do you think it compares to Sora? pic.twitter.com/xYvBJbkoKC

— Andrew Gao (@itsandrewgao) April 27, 2024

محاكاة العالم المادي الحقيقي

وتم اقتراح التكنولوجيا الأساسية لـ U-ViT لأول مرة من قبل فريق بحث Vidu في سبتمبر 2022، قبل بنية نموذج Sora لـ DiT – التنوع في التحول، وهي أول بنية نموذجية للتحول البصري في العالم تجمع بين مزايا الانتشار والمحول، وفقًا لتقارير وسائل الإعلام.

بنقرة واحدة صار بإمكانة تحويل أي نص إلى فيديو.. تعرف إلى Vidu

وخلال عرض حي يوم السبت، يستطيع Vidu محاكاة العالم المادي الحقيقي وإنشاء مشاهد بتفاصيل معقدة تتماشى مع القوانين الفيزيائية الحقيقية، مثل تأثيرات الضوء والظل المعقولة وتعبيرات الوجه الدقيقة.

ويمكنه أيضًا إنشاء لقطات ديناميكية معقدة، بدلاً من اللقطات الثابتة.