Imagen: غوغل تتفوق على OpenAI بتوليد صور حقيقية من نص مكتوب

تتسارع التطورات في نظم الذكاء الاصطناعي وخاصة تلك التي تولد صوراً حقيقية من خلال وصف نصي. ففي أبريل الماضي خرجت لنا OpenAI بنظام دالي 2. واليوم بعد شهر واحد تخرج غوغل بنظام إيماجن Imagen الذي يتفوق على دالي 2 بتوليد صور أقرب للواقعية.

فمثلأُ إذا كتبنا له : "أخطبوط فضائي يطفو عبر بوابة يقرأ جريدة" يولد الصورة التالية:

وإذا كتبت: "بطة مطلية بالكروم ومنقارها ذهبي تتجادل مع سلحفاة غاضبة في غابة" يولد الصورة التالية:

a-chrome-plated-duck-with-a-golden-beak-arguing-with-an-angry-turtle

وهذا يعني أنه يفهم النص المكتوب ويفهم الصور التي يولدها وتعبر عن هذا النص. وكلمة فهم لاتعني أنه يفهم كما نفهم نحن بل يمثل النص على شكل أرقام بحيث يتمكن من توليد صورة أقرب ماتكون لهذا التمثيل الرقمي ويحدث هذا لأنه تم تدريبه على كميات هائلة من النصوص والصور التي تعبر عنها فيكتسب القدرة على النجاح في مهمة توليد صور جديدة من نصوص جديدة.

بالطبع من الممكن أن يٌخطئ النظام ويولد صور أشياء غريبة ولا تعبر عن النص المكتوب, لكنه في كثير من الأحيان يولد رسومات تدهشنا.

والنظام يتكون من مكونين:

مكون فهم النص

استخدم فريق غوغل نموذج تعلم عميق يفهم النص المقدم له ويولد ترميزاً رقمياً له. وهذا النموذج عام يفهم أي نص ولم يتم تدريبه على الصور.

2. مكون توليد الصورة

يأخذ تمثيل النص من المرحلة السابقة والصورة المرافقة له والتي يملكها فريق البحث ويتم تدريب النموذج على ملايين الصور التي يتوفر لنا وصفاً لها. وبعد انتهاء التدريب يصبح النموذج قادرا على توليد صورة حقيقة من النص المقدم له.

هذا النموذج غير متاح للاستخدام العام ولم ينشروا الكود البرمجي الذي يبنيه وتقول غوغل أنها تخاف من أن يُساء استخدامه في توليد صوراً مزورة لغايات غير سليمة.

يمكن زيارة موقع إيماجن لترى عدد كبير من الصور التي تم توليدها من خلال هذا النموذج.

Imagen: غوغل تتفوق على OpenAI بتوليد صور حقيقية من نص مكتوب

مقالات مرتبطة

دالي 2: فنان الذكاء الاصطناعي الذي يحول ما نكتبه إلى رسومات

بعد Stable Diffusion هل انتهى عصر الفوتوشوب؟

Sora: نموذج OpenAI لتوليد فيديو من نص

انفيديا تحول النص إلى فيديو بالذكاء الاصطناعي

أنواع الذكاء الاصطناعي التوليدي

في يوم واحد: جوجل تطلق جيميناي 1.5 و OpenAI تطلق Sora

شركة OpenAI تقدم نفسها كمستقبل هوليوود

نموذج Strawberry: ما هو أحدث نماذج "أوبن إيه آي"؟

ماهي البيانات الضخمة Big Data وكيف تستخدمها الشركات