جعل الروبوت ينفذ أوامر المستخدم باستقلالية أمر معقد ويتضمن العديد من الإجراءات، ففي البداية على الروبوت أن يفهم أمر المستخدم (سواء كان كلام أو صور) ثم عليه أن يجد الإجابة عليه ويحدد الخطوات التي يجب عليه فعلها لتنفيذه، ثم التحرك في البيئة المحيطة لتنفيذ الهدف.
تساعد نماذج اللغة المرئية (VLMs) على فهم محيط الروبوت من خلال الفيديو الذي تصوره كاميراته، ثم الاستجابة لطلبات المستخدم عند سؤاله عن أي شيء في الفيديو، لكن بالنسبة للروبوت هذا لا يكفي فيجب إضافة طريقة تجعل الروبوت يتحرك لتنفيذ الأوامر.
مثلاً إذا أردت إلقاء علبة كولا في سلة القمامة، تطلب من الروبوت أن يجد مكان إلقائها لأنك لاتعرف المكان، على الروبوت أن يجد المكان الذي قد يكون في غرفة ثانية وبالتالي لاتراه كاميراته، إذاً يجب على الروبوت أن يكون قد تجول في المكان وزود نموذج اللغة المرئية به، ثم يجد صورة لمكان سلة القمامة وبعدها على الروبوت أن يذهب إلى مكان السلة.
اقترحت غوغل في بحثها الجديد أن يتم تصوير المكان بشكل كامل كمقطع فيديو ثم تزويد نموذج اللغة المرئية به، واستخدمت جيميناي برو 1.5 لذلك كونه يمتلك نافذة سياق كبيرة تمكنه من التعامل مع كميات كبيرة من البيانات. ثم قامت من خلال هذا الفيديو بإنشاء مخطط طوبولوجي للمكان يربط بين كل صورة في الفيديو مع إحداثياتها في المكان، فعند إعطاء نموذج اللغة الصورة يقوم الروبوت باستخدام هذا المخطط للانتقال من مكانه الحالي إلى المكان الهدف.
أطلقت غوغل على اسم هذه المنهجية Mobility VLA التي تسمح للروبوت بفهم البيئة التي يعمل بها، وتنفيذ أوامر المستخدم بدقة عالية. وتتضمن هذه المنهجية تصوير فيديو مسبق للمكان و استخدامه لإنشاء مخطط طبولوجي، يعتمد على الأول نموذج اللغة المرئية للإجابة على طلبات المستخدم، ويعتمد الروبوت على الثاني للتنقل إلى المكان المطلوب. في البداية يقوم نموذج اللغة بتحديد الهدف من خلال فهم المستخدم، ثم يتولى الروبوت باستخدام المخطط الطبولوجي التجول للمكان المطلوب.
وقد اختبرت منهجيتها هذه في مكتب ديب مايند (836م2) وحققت معدل نجاح %86 و %90 (زيادة %26 و 60% عن الطرق السابقة) في اختبارات تتضمن الاستدلال المعقد (أين أجد مكان بعيد عن أعين الموظفين) و تنفيذ أوامر المستخدم متعددة الدخل (أين أرمي هذا الغرض وإظهار صورته للروبوت).
تُظهر النتائج الواعدة لهذه التقييمات فعالية Mobility VLA في تمكين الروبوتات من الاستجابة بشكل مستقل للأوامر والتنقل داخل بيئة محددة. تحمل هذه المنهجية إمكانات كبيرة لتطوير قدرات الروبوتات وتوسيع تطبيقاته في سيناريوهات مختلفة في العالم الحقيقي.