ربما يكون مجال الروبوتيك أكثر مجالات الذكاء الاصطناعي جاذبية إذ تتنافس الشركات على تطوير نماذج مختلفة من الروبوتات. فمن حين لآخر تذكرنا شركة تسلا أنها على وشك إطلاق سياراتها ذاتية القيادة؛ و تخرج لنا بوستن دايناميك Boston Dynamics بفيديو عن روبوت لها يستطيع تسلق الجبال وآخر تدفعه بقوة ليسقط لكنه ينجح في إعادة توازنه.
وفي الجانب الأقل حركية نرى روبوتات مثل صوفيا التي تجيب على الاسئلة بطريقة توحي أنها تفهمها. وأليكسا من أمازون قادرة على ربط بعض الجمل البسيطة ببعض الأوامر. لكن كل هذه الروبوتات تفتقد لشيء مهم يجب توفره في الروبوت الذي سيتواصل معنا ويفهمنا وهو: فهم اللغة الطبيعية وتحويلها إلى أوامر قابلة للتنفيذ. وهذا هو هدف مشروع غوغل الروبوتي المسمى قل-يمكن SayCan.
في أبريل 2022 أصدر المشروع أول ورقة بحثية مع فيديوهات تشرح كيف يعمل الروبوت الجديد. يستخدم هذا الروبوت المنزلي النماذج اللغوية الكبيرة مثل GPT3 لفهم اللغة الطبيعية ثم يحولها إلى أوامر يمكن للروبوت تنفيذها في البيئة الموجود فيها ثم يبدأ الروبوت بالتنفيذ.
مثلاً إذا تلقى الروبوت: "لقد سكبت الكولا, هل يمكن جلب شيء للتنظيف؟"
يتم تنفيذ الأمر كما يظهر في الصورة التالية. يقوم نموذج اللغة باقتراح عدة أفعال ويعطي كل فعل درجة أهمية (تظهر باللون الأزرق). ثم يقوم الروبوت باستخدام الكاميرا بتفحص البيئة المحيطة ويقوم بإعطاء درجة أهمية لكل اقتراح (تظهر درجته باللون الأحمر) ثم يتم تجميع الدرجتين ليتم اختيار الفعل الذي له أعلى درجة أهمية(اللون الأخضر). وهكذا يقوم SayCan بتخطيط تنفيذ الأوامر للروبوت: (1) ابحث عن إسفنجة (2) التقط الإسفنجة (3) أحضرها إليه (4) تم التنفيذ.
وهذا الفيديو يُبين كيف يتم تنفيذ أمر أكثر تعقيداً بقليل بعد التسريع. "لقد سكبت الكولا على الطاولة ،هلا رميتها بعيداً وأحضرت لي شيئاً للمساعدة في التنظيف". قام الروبوت بتخطيط وتنفيذ 8 خطوات بنجاح.
وهكذا يمكن تلخيص عمل SayCan بـ:
1- فهم الأمر وتحويله إلى اقتراحات مرتبة حسب الأهمية باستخدام نموذج اللغة
2- يقوم الروبوت بترتيب الاقتراحات حسب البيئة الموجود فيها
3- يتم اختيار الاقتراح ذو الأهمية الأكبر
4- يتم تنفيذ الاقتراح
5- يتم العودة إلى الخطوة الأولى طالما لم ينتهي تنفيذ المهمة, لكن الأمر الجديد الذي يعالجه نموذج اللغة هو الأمر الأولي مع المقترح المنفذ ليتم اقتراح الخطوة التالية الجديدة.
رغم النجاح الباهر للروبوت في تنفيذ العديد من المهام إلا أنه لم يتم تجربته إلا في بيئة واحدة هي مطبخ مختبر الأبحاث في غوغل. وبالطبع لا نتوقع أن يعمل في أي بيئة أخرى بدون تدريب جديد. كما سُجل أنه يٌسقط الأشياء التي يحملها في كثير من الأحيان.
أما فيما يخص الدقة في اختيار الاقتراح المناسب فقد كان نموذج اللغة هو السبب في 65% من الأخطاء التي تحدث بينما الروبوت كان سبباً في 35% منها. يبدو أن فهم اللغة في SayCan هو الجزء الأكثر أهمية وعليه تعتمد كل المراحل التالية. وهكذا يبدو الروبوت كأنه أعين وأيدي لنموذج اللغة الذي يمكن اعتباره عقل الروبوت.
مازال الطريق طويلاً لنرى روبوتاً منزلياً يُنفذ ما نطلبه منه. لكن لا شك أن هذا البحث يشكل انطلاقة قوية وجريئة للوصول إلى روبوت يمتلك مهارات تنفيذ ما نريده منه بما يخص أمور تدبير المنزل على الأقل.
شارك في البحث 43 باحث في قسم الروبوتيك في Google Brain وشركة Everyday Robot. لمزيد من التفاصيل يمكن زيارة موقع المشروع SayCan