إيقاف جيميناي بعد توليده صورا غير دقيقة تاريخيًا

أوقفت شركة غوغل بشكل مؤقت، قدرة أداة الذكاء الاصطناعي جيميناي Gemini على إنشاء صور للأشخاص، بعد أن تم انتقادها على وسائل التواصل الاجتماعي لإنتاج صور غير دقيقة تاريخيًا، أظهرت إلى حد كبير أشخاصًا ملونين بدلاً من الأشخاص البيض.

وتبين أن الأداة تولد صورًا غير دقيقة تاريخيًا، حيث أنشأت صورا غير دقيقة للآباء المؤسسين للولايات المتحدة والجنود الألمان في الحقبة النازية.

يأتي ذلك بعد أقل من أسبوعين، من إعلان الشركة، عن إتاحة خدمة جيميناي لإنشاء الصور، على نطاق عالمي، عبر تطبيق هاتفي قابل للتنزيل، عقب إطلاقه قبلها بأيام في الولايات المتحدة الأمريكية.

وقالت غوغل عبر منصة إكس، إنها تعمل نعمل بالفعل على معالجة المشكلات الأخيرة المتعلقة بميزة إنشاء الصور في Gemini.

We're already working to address recent issues with Gemini's image generation feature. While we do this, we're going to pause the image generation of people and will re-release an improved version soon. https://t.co/SLxYPGoqOZ

— Google Communications (@Google_Comms) February 22, 2024

وأضافت: “بينما نقوم بذلك، سنقوم بإيقاف إنشاء صور الأشخاص مؤقتًا وسنعيد إصدار نسخة محسنة قريبًا”.

وعندما طلبت “أخبار الآن” من جيميناي إنشاء صورة لرعاة البقر على سبيل المثال، كانت إجباته كالتالي: “نحن نعمل على تحسين قدرة “جيميناي” على إنشاء صور للأشخاص. نتوقع عودة هذه الميزة قريبًا وسنخبرك في تحديثات الإصدار عند حدوثها”.

أخبار الآن

خطأ فادح

وذكرت شبكة “سي إن إن“، الأمريكية، أن هذا الخطأ الفادح يُظهر كيف أن أدوات الذكاء الاصطناعي لا تزال تعاني من مفهوم العرق الذي يسخدم العرق لتصنيف البشر إلى مجموعات فرعية بناءً على السمات الفيزيائية المشتركة، مثل لون البشرة، وشكل الشعر، ولون العينين، وسمات الوجه، ونشأ هذا التصنيف تاريخياً من خلال تقسيمات جغرافية وثقافية واجتماعية.

على سبيل المثال، تعرض مولد الصور Dall-E التابع لشركة OpenAI، المطورة لروبوت الدردشة الشهير ChatGPT، لهجوم شديد بسبب إدامة الصور النمطية العنصرية والإثنية الضارة على نطاق واسع.

ومع ذلك، يبدو أن محاولة غوغل للتغلب على هذه المشكلة قد جاءت بنتائج عكسية وجعلت من الصعب على برنامج الدردشة الآلي الذي يعمل بالذكاء الاصطناعي إنشاء صور للأشخاص البيض.

ويتم تدريب Gemini، كغيره من أدوات الذكاء الاصطناعي الأخرى مثل ChatGPT، على كميات كبيرة من البيانات عبر الإنترنت.

وقد حذر الخبراء منذ فترة طويلة من أن أدوات الذكاء الاصطناعي لديها القدرة على تكرار التحيزات العنصرية والجنسانية الموجودة في تلك المعلومات.

وعندما طلبت منه شبكة “سي إن إن” من جيميناي إنشاء صورة للبابا، على سبيل المثال، أنتج جيميني صورة لرجل وامرأة، ولم يكن أي منهما أبيض اللون.

Google pauses Gemini’s ability to generate AI images of people after diversity errors https://t.co/4ZsX1sJu3R

— The Verge (@verge) February 22, 2024

وأفاد موقع”ذا فيرج” التقني أيضًا بأن الأداة أنتجت صورًا لأشخاص ملونين استجابةً لمطالبة بإنشاء صور “لجندي ألماني عام 1943”.

وفي اختبارات أخرى أجرتها شبكة “سي إن إن”، أدت مطالبة تطلب صورة “مزارع أبيض في الجنوب” إلى رد جيميني قائلاً: “بالتأكيد، إليك بعض الصور التي تعرض صورًا لمزارعين في الجنوب، يمثلون مجموعة متنوعة من الجنس والعرق”.

ومع ذلك، أدى طلب منفصل لـ “جدة أيرلندية في حانة في دبلن” إلى ظهور صور لنساء بيض مسنات مرحات يحملن البيرة وخبز الصودا.

من جانبه، قال جاك كراوزيك، مدير المنتج الرئيسي لـGemini في غوغل، إن الشركة تصمم عمدًا “قدرات إنشاء الصور لتعكس قاعدة المستخدمين العالمية لدينا”، وأنها ستواصل القيام بذلك من أجل المطالبات المفتوحة.

ووفق “سي إن إن”، يعد هذا الحادث أيضًا انتكاسة أخرى لشركة غوغل، حيث إنها تتسابق لمواجهة OpenAI واللاعبين الآخرين في مجال الذكاء الاصطناعي التوليدي التنافسي.

وفي فبراير من العام الماضي، وبعد وقت قصير من تقديم أداة الذكاء الاصطناعي التوليدية الخاصة بها، التي كانت تسمى حينها Bard ثم أعيدت تسميتها بعد ذلك باسم Gemini، انخفض سعر سهم غوغل لفترة وجيزة بعد أن أظهر مقطع فيديو تجريبي للأداة أنها تنتج استجابة غير دقيقة في الواقع لسؤال حول تلسكوب جيمس ويب الفضائي.

ما هو جيميناي؟

أطلقت شركة غوغل روبوت الدردشة الخاص بها Bard مطلع العام الماضي لمنافسة روبوت الدردشة الشهير ChatGPT.

ويوفر Bard إمكانيات وميزات قوية لمستخدميه، ما يجعله أداة قيمة لمجموعة متنوعة من المشاريع، منها كتابة محتوى إبداعي وترجمة اللغات والإجابة على الأسئلة وإنشاء تطبيقات جديدة.

غوغل توقف مؤقتًا خاصية توليد الصور بالذكاء الاصطناعي في جيميناي.. ما السر؟

لكن الشركة قررت مؤخرًا تعزيز قدرات Bard في الذكاء الاصطناعي عبر تحليل النصوص والصور والصوت والفيديو، وتحويل اسمه إلى جيميناي Gemini.

وودت غوغل، جيميناي بنموذج “ألترا 1.0” Ultra 1.0 وهو الأول من نوعه الذي يتفوق على الخبراء من البشر في معيار فهم اللغة “متعدد المهام الهائل” (MMLU)، وهو اختبار صارم يشمل 57 موضوعاً متنوعاً، شمل الرياضيات والفيزياء والتاريخ والقانون والطب والأخلاق وغيرها.

ويعد جيميناي المتوفر بـ40 لغة، ويمكن الوصول إليه عبر الويب بتجربة ثورية لرفع مستوى العملية الإبداعية والإنتاجية.

وسيطلق على الإصدار المزود بـUltra تسمية جيميناي أدفانسد Gemini Advanced وهو تجربة تتمتع بقدرات جديدة أعلى بكثير على التحليل واتباع التعليمات والتعاون الإبداعي. وسيُتاح باللغة الإنجليزية لأي مستخدم لديه اشتراك في خطة Google One Ai premuim الجديدة.

كيف يولد جيميناي Gemini الصور؟

يعتمد نموذج جيميناي Gemini على تقنية التعلم العميق لإنشاء الصور. ويتم ذلك من خلال خطوات أساسية:

معالجة النص

يقوم نموذج جيميناي Gemini بفهم النص الذي يُقدم له كمدخل.

ويستخدم تقنيات معالجة اللغة الطبيعية (NLP) لفهم المعنى والخصائص المطلوبة للصورة.

تحويل النص لتمثيل بصري

بعد فهم النص، يحول نموذج جيميناي Gemini هذا الفهم إلى تمثيل بصري.

ويتم ذلك من خلال استخدام شبكة عصبية اصطناعية (ANN) متخصصة في تحويل اللغة إلى صور.

إنشاء الصورة

أخيرًا، يُستخدم نموذج توليد الصور (GAN) لإنشاء الصورة بناءً على التمثيل البصري الذي تم إنشاؤه في الخطوة السابقة.

ويقوم نموذج GAN بتوليد صور واقعية تتوافق مع خصائص الصورة المطلوبة.

ورغم قدرة جيميناي على إنشاء صور واقعية بدقة عالية، لكن قد يُواجه بعض الأخطاء في إنشاء الصور، خاصةً عندما يكون النص معقدًا أو غامضًا، وقد يُعاني أيضًا من التحيز في إنشاء الصور، خاصةً إذا تم تدريبه على بيانات غير متوازنة، لذلك جاءت إعلان غوغل بإيقاف قدرة قدرة جيميناي مؤقتًا على إنشاء صور لأشخاص بعد اكتشاف بعض الأخطاء المتعلقة بالتنوع.