نماذج Sapiens من ميتا: تحسين فهم البيانات المرئية

بقلم:   تامر كرم           |  Aug. 23, 2024

sapians

قدمت ميتا عائلة جديدة من نماذج الرؤية، اسمها نماذج Sapiens. وهي مصممة لأربع مهام رؤية رئيسية تركز على الإنسان: تقدير الوضع ثنائي الأبعاد، وتقسيم أجزاء الجسم، وتقدير العمق، والتنبؤ بالسطح الطبيعي. وتختلف هذه النماذج في عدد المعلمات(أوزان الشبكة)، التي تتراوح من 300 مليون إلى 2 مليار. وهي تستخدم بنية محول الرؤية (Vision Transformer)، حيث تشترك المهام في نفس المشفر(Encoder)، في حين أن كل مهمة لها رأس فك تشفير (Decoder Head)مختلف.

هذه المهام أساسية لتطبيقات مختلفة في مجال الرؤية الحاسوبية، حيث تعمل على تعزيز قدرتنا على تفسير البيانات المرئية والتفاعل معها. وفيما يلي وصف موجز لكل مهمة:

1- تقدير الوضع ثنائي الأبعاد: تتضمن هذه المهمة اكتشاف وتحديد نقاط رئيسية على جسم الإنسان في صورة ثنائية الأبعاد. وتتوافق هذه النقاط الرئيسية عادةً مع المفاصل مثل المرفقين والركبتين والكتفين، مما يساعد على فهم وضعية الشخص وحركاته.

2- تقسيم أجزاء الجسم: تقوم هذه المهمة بتقسيم الصورة إلى أجزاء مختلفة من الجسم، مثل الرأس والجذع والذراعين والساقين. يتم تصنيف كل بكسل في الصورة على أنه ينتمي إلى جزء معين من الجسم، وهو أمر مفيد لتطبيقات مثل التجارب الافتراضية والتصوير الطبي.

3- تقدير العمق: تقوم هذه المهمة بتقدير مسافة كل بكسل في الصورة من الكاميرا، مما يؤدي إلى إنشاء تمثيل ثلاثي الأبعاد من صورة ثنائية الأبعاد. إنه أمر بالغ الأهمية لتطبيقات مثل الواقع المعزز والقيادة الذاتية، حيث يكون فهم التخطيط المكاني مهماً.

4- التنبؤ بالسطح الطبيعي: تتنبأ هذه المهمة باتجاه الأسطح في الصورة. يتم تعيين متجه طبيعي لكل بكسل، مما يشير إلى الاتجاه الذي يواجهه السطح. هذه المعلومات قيمة لإعادة البناء ثلاثي الأبعاد وفهم هندسة الأشياء في المشهد.

نتائج أفضل من النماذج السابقة

لقد حسنت نماذج Sapiens بشكل كبير نتائج أحدث التقنيات السابقة في هذه المهام:

1- لتقدير الوضع 7.6 mAP تحسن في Humans-5K

2- 17.1لتجزئة أجزاء الجسم mIoU تحسن في Humans-2K

3- لتقدير العمق 22.4% تحسن نسبي في RMSE في Hi4D

4-للتنبؤ بالسطح الطبيعي 53.5% تحسن نسبي في الخطأ الزاوي في THuman2

يعزو الباحثون الأداء المتطور لنماذجهم إلى:

التدريب المسبق على نطاق واسع على مجموعة بيانات مختارة بعناية: يسمح التدريب المسبق على مجموعة بيانات ضخمة ومختارة بعناية من الصور البشرية للنماذج بتعلم مجموعة واسعة من السمات والأنماط التي تركز على الإنسان. يساعد هذا التدريب المسبق المكثف النماذج على التعميم بشكل أفضل على السيناريوهات المتنوعة والواقعية، حتى عندما تكون البيانات المصنفة نادرة أو مصطنعة.

هياكل أساسية لمحولات الرؤية عالية الدقة والسعة: إن استخدام محولات الرؤية عالية الدقة (1024 بكسل) وعدد كبير من المعلمات يعزز قدرة النماذج على التقاط التفاصيل الدقيقة والهياكل المعقدة في الصور. وتضمن هذه القدرة على التوسع أن النماذج يمكنها التعامل مع المدخلات عالية الدقة بشكل فعال، مما يؤدي إلى تنبؤات أكثر دقة وتفصيلاً عبر مهام مختلفة.

استخدام بيانات مختارة و مصنفة بعناية إلى جانب والبيانات الاصطناعية: توفر البيانات المختارة عالية الجودة قاعدة دقيقة وموثوقة لتدريب النماذج. من خلال استخدام البيانات الاصطناعية، يمكن للباحثين إنشاء سيناريوهات متنوعة وصعبة غير متوفرة لكنها ممكنة مما يعمل على تحسين قوة النماذج وأدائها. ويضمن هذا النهج أن النماذج تصبح مجهزة تجهيزًا جيدًا للتعامل مع بيانات العالم الحقيقي بدقة عالية.

يمثل Sapiens تقدمًا كبيرًا في فهم البيانات البصرية التي تركز على الإنسان. وباعتبارها نماذج مفتوحة المصدر، يمكن ضبطها وتحسين تدريبها للعديد من المهام اللاحقة، مما يوفر إمكانية البناء على هياكل أساسية عالية الجودة للرؤية. ويساهم في تسريع تطوير نماذج الرؤية المتفوقة التي تركز على الإنسان، مما يعزز الابتكار والتقدم في هذا المجال.



مشاركة