تتسارع التطورات في نظم الذكاء الاصطناعي وخاصة تلك التي تولد صوراً حقيقية من خلال وصف نصي. ففي أبريل الماضي خرجت لنا OpenAI بنظام دالي 2. واليوم بعد شهر واحد تخرج غوغل بنظام إيماجن Imagen الذي يتفوق على دالي 2 بتوليد صور أقرب للواقعية.
فمثلأُ إذا كتبنا له : "أخطبوط فضائي يطفو عبر بوابة يقرأ جريدة" يولد الصورة التالية:
وإذا كتبت: "بطة مطلية بالكروم ومنقارها ذهبي تتجادل مع سلحفاة غاضبة في غابة" يولد الصورة التالية:
وهذا يعني أنه يفهم النص المكتوب ويفهم الصور التي يولدها وتعبر عن هذا النص. وكلمة فهم لاتعني أنه يفهم كما نفهم نحن بل يمثل النص على شكل أرقام بحيث يتمكن من توليد صورة أقرب ماتكون لهذا التمثيل الرقمي ويحدث هذا لأنه تم تدريبه على كميات هائلة من النصوص والصور التي تعبر عنها فيكتسب القدرة على النجاح في مهمة توليد صور جديدة من نصوص جديدة.
بالطبع من الممكن أن يٌخطئ النظام ويولد صور أشياء غريبة ولا تعبر عن النص المكتوب, لكنه في كثير من الأحيان يولد رسومات تدهشنا.
والنظام يتكون من مكونين:
- مكون فهم النص
استخدم فريق غوغل نموذج تعلم عميق يفهم النص المقدم له ويولد ترميزاً رقمياً له. وهذا النموذج عام يفهم أي نص ولم يتم تدريبه على الصور.
2. مكون توليد الصورة
يأخذ تمثيل النص من المرحلة السابقة والصورة المرافقة له والتي يملكها فريق البحث ويتم تدريب النموذج على ملايين الصور التي يتوفر لنا وصفاً لها. وبعد انتهاء التدريب يصبح النموذج قادرا على توليد صورة حقيقة من النص المقدم له.
هذا النموذج غير متاح للاستخدام العام ولم ينشروا الكود البرمجي الذي يبنيه وتقول غوغل أنها تخاف من أن يُساء استخدامه في توليد صوراً مزورة لغايات غير سليمة.
يمكن زيارة موقع إيماجن لترى عدد كبير من الصور التي تم توليدها من خلال هذا النموذج.