الانتشار المستقر Stable Diffusion هو أول نموذج ذكاء اصطناعي مفتوح المصدر يقوم برسم الصور من وصف نصي لها. فإذا أردنا أن نرسم صورة "نمر يطفو في نهر أخضر" كل ماعلينا كتابة هذه العبارة "a tiger floating in a green river" وسيخرج لنا عدة اقتراحات كما في الصورة.
ويمكن أن نكتب نص ليعدل على الصورة السابقة لتغيير الاشياء التي نريدها. فهذا النموذج يرسم لنا أي صورة ويعدل على أي صورة من خلال أوامر نصية .فهل نحتاج أكثر من ذلك لتصميم ومعالجة الصور. رغم أنه في كثير من الأحيان قد لا ينتج الصورة التي نريدها تماما لكن إمكانية التعديل على الصورة يجعل مستقبل هذه النماذج واعد, فمن سيقوم بإضاعة ساعات في رسم وتصميم صورة على الفوتوشوب في حين يرسمها هذا النموذج خلال ثواني.
كيف يعمل الانتشار المستقر
الانتشار المستقر هو نموذج انتشار، وهو نوع من نماذج توليد الصور التي تبني تدريجياً صورة متماسكة من صورة مولدة عشوائياً لاتعبر عن شيء وذلك عن طريق تعديلها تدريجياً عبر عدد من الخطوات حتى تصبح الصورة المولدة معبرة عمّا كتبناه للنموذج. ويتم تدريبه ليقوم بتوليد الصورة على مرحلتين:
المرحلة الأولى: يأخذ النموذج صورة مع وصفها النصي ويضيف إليها ضوضاء تدريجياً مما يؤدي إلى تدهور الجودة وتصبح الصورة غير واضحة.
المرحلة الثانية: يتعلم النموذج إزالة الضوضاء تدريجياً حتى يتم الحصول على صورة واضحة. مماثلة للصورة الأصلية التي قام بتشويهها في المرحلة الأولى.
تم تدريب النموذج على عدد كبير من الصور والنصوص الواصفة لها والتي تم جمعها من الانترنت. خلال عملية التدريب يتوصل النموذج لفهم الأشياء في الصور التي ترتبط بالنص المكتوب. وبناء عليه عندما يأتيه نص يقوم بتوليد صورة جديدة تماماً تعبر عن النص ابتداءاً من صورة عشوائية غير واضحة.
كلف التدريب 600 ألف دولار. لكن إن كان التدريب مكلف للغاية فتنفيذ البرنامج لإنتاج الصور لا يحتاج إلاّ لوحدة معالجة رسومية واحدة تتوافر في أي كمبيوتر ألعاب وبهذا يصبح توليد وتعديل الصور متاح للجميع.
الانتشار المستقر مفتوح المصدر فهو متاح للجميع لكي يتعرفوا كيف تم تدريبه وبرمجته ويمكن لأي أحد أن يقوم بتطويره و إضافة مجموعات تدريب جديدة لإنتاج صور أكثر دقة. وبذلك أصبح المجال مفتوح أمام الجميع لإنشاء نسخ خاصة من نموذج توليد الصور هذا ويمكن لكل منها أن ينتج لنفس النص صورة مختلفة. فتخيل التنوع البصري الذي يمكن إنتاجه.
الانتشار المستقر ليس أول نموذج ذكاء اصطناعي لتوليد صور من نصوص. فقد سبقه النموذج الأشهر دالي-2 من OpenAI وايماجن من غوغل. لكن هذه النماذج مغلقة المصدر وغير متاحة للتجربة والاستخدام الفردي. أما الانتشار المستقر متاح للجميع لكي يجربه ويطور فيه.
يمكنك الاطلاع على كود البرنامج و تحميله وتجربته بنفسك https://github.com/CompVis/stable-diffusion