قدمت شركة آبل ورقة بحثية بعنوان "وهم التفكير: فهم نقاط قوة وضعف نماذج الاستدلال من منظور تعقيد المسائل". تتحدى هذه الورقة الافتراض السائد بأن نماذج الذكاء الاصطناعي القادرة على توليد "مسارات تفكير" مفصلة قبل تقديم الإجابات، تفكر حقاً.
فبينما تُظهر هذه النماذج، مثل OpenAI o1/o3 وDeepSeek-R1 وClaude 3.7 Sonnet Thinking وGemini Thinking، قدرات مهمة في معايير الاستدلال المختلفة، إلا أن تقييماتها غالباً ما تركز على دقة الإجابة النهائية في حل المسائل الرياضية والبرمجية، متجاهلة جودة مسارات الاستدلال نفسها. ترى آبل أن هذه "الفجوة في التقييم" تُخفي حقيقة أن النماذج قد لا تبني قواعد استدلال منطقية حقيقية، بل تعتمد على مجرد مطابقة الأنماط التي تدربت عليها.
هل نماذج الاستدلال الكبيرة تقوم بالتفكير أم مطابقة أنماط؟
لفهم السلوك الاستدلالي لهذه النماذج بدقة أكبر، قامت آبل بتصميم بيئات اختبارية محكمة باستخدام ألغاز منطقية كلاسيكية. على عكس المسائل الرياضية والبرمجية التي تفتقر إلى إمكانية التحكم في الظروف التجريبية، تتيح الألغاز التحكم الدقيق في تعقيد المسألة ومراقبة مسارات التفكير. وقد استخدمت آبل أربعة ألغاز رئيسية لهذا الغرض:
- برج هانوي: لغز رياضي كلاسيكي يتضمن نقل كومة من الأقراص بين أوتاد مع اتباع قواعد محددة.
- عبور النهر: مسألة تتعلق بنقل أشياء (مثل ثعلب ودجاجة وحبوب) عبر نهر دون انتهاك قيود معينة.
- عالم الكتل: تحدٍ استدلالي مكاني يتطلب تكديس الكتل في تكوين محدد.
- قفز الداما: لغز يتطلب تحريك القطع بشكل استراتيجي بالقفز فوق بعضها البعض إلى المساحات الفارغة.
أظهرت النتائج أن نماذج الاستدلال الكبيرة (LRMs) كان أداؤها جيداً في الإصدارات البسيطة ومتوسطة التعقيد من هذه الألغاز. ومع ذلك، ومع زيادة التعقيد، انهارت دقتها بشكل ملحوظ. والأكثر إثارة للقلق هو أن أداء هذه النماذج لم يتحسن حتى عندما تم تزويدها بالخوارزميات الصريحة للحل. فعلى سبيل المثال، في لغز برج هانوي، ورغم تزويد النموذج نصياً بالخوارزمية التي يجب اتباعها (والتي تتكون من خطوات منطقية واضحة)، إلا أنه استمر في اتباع نمط التفكير الذي تدرب عليه، والذي يعتمد على مطابقة الأنماط، ولم تتحسن نتائجه. يشير هذا إلى أن النماذج لم تتمكن من تطبيق الإجراءات المنطقية خطوة بخطوة لحل المشكلات، بل اعتمدت على التعرف على الأنماط والاستدلال الاحتمالي، مما أدى إلى استدلال مجزأ وغير متسق لدرجة أنه ينعدم بعد حد معين من التعقيد.
قيود الدراسة وآفاق المستقبل
تقر آبل بأن هذه الألغاز لا تشمل طيفاً واسعاً من عمليات التفكير البشري. ومع ذلك، فإنها توفر مؤشرات قيمة وقابلة للدراسة حول ضعف هذه النماذج وعدم قدرتها الاستدلالية كلما تعقدت المسائل أكثر. فالنتائج تشير إلى أن نماذج LRMs قد لا تمتلك قدرة استدلالية قابلة للتعميم تتجاوز عتبات معينة من التعقيد.
تثير هذه الدراسة تساؤلات جوهرية حول طبيعة "التفكير" في الذكاء الاصطناعي. هل تُجري هذه النماذج استدلالاً حقيقياً، أم أنها مجرد برامج متطورة لمطابقة الأنماط؟ وهل أساليب التقييم الحالية عادلة، أم أنها تشوه قدرات الذكاء الاصطناعي؟ هذه الأسئلة تفتح الباب أمام نقاش أوسع حول مستقبل الذكاء الاصطناعي والذكاء الاصطناعي العام (AGI)، وتؤكد على الحاجة إلى مزيد من البحث لفهم قدرات هذه النماذج وتطوير طرق تقييم أكثر شمولاً.