نشرت جوجل ديب مايند دراسة بحثية مفصلة تسلط الضوء على ظاهرة تُعرف باسم الهلوسة أو فخ الطلاقة، وهي الحالة التي تبدو فيها إجابات نماذج الذكاء الاصطناعي اللغوية فصيحة للغاية ومنطقية لدرجة تخدع المستخدم وتجعله يظن أن إجاباتها صحيحة تماماً، بينما هي في الواقع تختلق المعلومات.
اعتمدت الدراسة على معيار تقييمي جديد وصارم يسمى FACTS صُمم خصيصاً لقياس الموثوقية الواقعية للنماذج عند الإجابة على أسئلة معقدة تتطلب استرجاع حقائق متعددة، كاشفة أن الفصاحة اللغوية لا تعني بالضرورة الدقة المعلوماتية، وأن النماذج الأكثر تطوراً لا تزال تعاني من معدلات خطأ كبيرة.
أظهرت نتائج الدراسة تفاوتاً رقمياً واضحاً بين النماذج الرائدة عالمياً، حيث تصدر القائمة نموذج Gemini 3 Pro من جوجل محققاً نسبة دقة بلغت 68.8%، تلاه نموذج GPT-5 (أحدث محركات OpenAI) بنسبة 61.8%، في حين حلّ نموذج Grok 4 (من شركة xAI) في المرتبة الثالثة مسجلاً نسبة 53.6%.
هذه الأرقام ورغم أنها تظهر تفوقاً لنموذج جوجل، إلا أنها تحمل في طياتها حقيقة صادمة؛ وهي أن النموذج الأذكى عالمياً لا يزال يخطئ أو يهلوس في نحو 30% من إجاباته الطويلة والمعقدة، بينما تصل نسبة الخطأ في نماذج أخرى إلى ما يقارب النصف، مما يعني أن الاعتماد عليها كمرجع وحيد للحقائق لا يزال مغامرة غير محسوبة العواقب.
يركز مفهوم فخ الطلاقة أو الهلوسة الذي حذرت منه الدراسة على الخطورة الكامنة في قدرة هذه النماذج على صياغة الأكاذيب بأسلوب إنشائي مقنع وبقواعد نحوية سليمة، مما يصعب على البشر اكتشاف الخطأ دون مراجعة المصادر الأصلية.
وقد أوضحت الدراسة أن هذه النماذج تميل غالباً إلى الهلوسة عندما لا تجد المعلومة الدقيقة في بيانات تدريبها، فتقوم بملء الفجوات بمعلومات تبدو منطقية في سياق الجملة لكنها خاطئة واقعياً.
ويعد هذا التقرير بمثابة جرس إنذار للمؤسسات والأفراد الذين يعتمدون بشكل كلي على الذكاء الاصطناعي في المجالات الحساسة كالطب والقانون والبحث العلمي، مؤكداً أننا لا نزال بحاجة ماسة إلى الإشراف البشري للتحقق من صحة المخرجات، وأن الطريق نحو ذكاء اصطناعي موثوق تماماً لا يزال طويلاً رغم القفزات التقنية الهائلة.