لماذا لا يراهن يان لوكون على الذكاء الاصطناعي التوليدي؟

بقلم:   تامر كرم           |  Feb. 21, 2024

يان لوكون

بعد إطلاق OpenAI لنموذج الذكاء الاصطناعي Sora الذي يحول النص إلى فيديو بجودة عالية قد تصل مدته دقيقة؛ انتشر فيديو ليان لوكون -رئيس الذكاء الاصطناعي في ميتا- يقول فيه في مؤتمر دافوس أنه يظن أن: "مستقبل الذكاء الاصطناعي ليس توليدي".

فبناء نموذج ذكاء اصطناعي يحاكي العالم لن يكون توليدي وإن كان حقق نجاح في فهم النص مثل حال ChatGPT سيكون الوضع أكثر تعقيداً مع الفيديو؛ مما وضعه وجها لوجه أمام Sora - النموذج التوليدي الذي يخلص صناعه للقول: "يعد توسيع نطاق نماذج توليد الفيديو طريقاً واعداً نحو بناء نماذج محاكاة للعالم المادي".

قد يشكل تصريح لوكون صدمة للكثيرين الذين تعرفوا على الذكاء الاصطناعي بعد الثورة التي أحدثتها النماذج التوليدية مثل ChatGPT و ميدجورني ودالي وجيميناي وغيرها. فكيف لا يكون الاستمرار في هذا الطريق هو الطريق للذكاء العام الاصطناعي.

لماذا يعتقد لوكون ذلك؟

أوضح في بوست على X أن اختصار تدريب النماذج على أن تكون توليدية هو كاختصار البرمجة بتعليمات الطباعة. أي أن النموذج التوليدي يتدرب على توليد أشياء محددة مثل جزء من كلمة أو جزء من صورة (بيكسلات) ولهذا فعند تدريب هذا النظام يكون الهدف هو تحسينه لكي يقوم بعملية توليد لشيء محدد (مجموعة بيكسلات).

فالأفضل -برأي لوكون- أن يكون الهدف هو تحسين النموذج لكي يفهم معنى الصورة التي يتنبأ بها وليس البكسلات المكونة للصورة. وهذا يعني نقل الصورة إلى فضاء مختلف عن فضاء البكسلات لنقل أنه فضاء المفاهيم بحيث يبدو تمثيل صورتين تعبران عن نفس المفهوم متقارب رغم أن تمثيلهما كمجموعة من البكسلات قد يكون شديد التباعد.

بهذا نقوم بتدريب النموذج على فهم المعنى في الصورة بدلاً من تقييده بتوليد صورة محددة؛ وبهذا سيكون أكثر شمولية وفهما للعالم. وبعدها يمكن أن نبني نماذج فوقه مثل Sora تقوم برسم الصورة في مجال البكسلات.

هل أخطأ لوكون؟

لاشك أن الفكرة جديرة بالاهتمام؛ وهي لم تبقى فكرة فقد صاغها على شكل رؤية لبناء آلات متقدمة الذكاء واسم هذه البنية Jepa وقد نشر فريق ميتا مؤخراً ورقة بحثية V-Jepa التي تستخدم هذه البنية من أجل الفيديو. لا تولد V-Jepa فيديوهات جميلة لكنها تبين تجريبياً أن هذه الفكرة أقدر على فهم العالم من الطرق الأخرى التوليدية.

الذكاء الاصطناعي علم تجريبي وليس نوع من الفلسفة فقط وهكذا يكون الحكم على هذه البنية نظرياً خطوة أولية لا دلالة كبيرة لها؛ فالحكم الحقيق يكون من خلال الأبحاث التجريبية التي ترينا ما هي البنية الأفضل للتقدم نحو بناء نموذج يحاكي العالم.

هذا لايعني بأي شكل من الأشكال أن نموذج Sora لايقدم شيئا مبهراً على مستوى توليد الفيديو؛ لكن موضوع النقاش أكبر من توليد فيديوهات جميلة؛ وهو هل يمكن له أن يبني نموذج يحاكي العالم بطريقة أكثر فعالية لو استخدم في تدريبه هذه الطريقة؛ وهو سؤال يستحق العمل للإجابة عليه.



مشاركة