جوجل تكشف بالأرقام عن عمق "فخ الطلاقة" في نماذج الذكاء الاصطناعي

نشرت جوجل ديب مايند دراسة بحثية مفصلة تسلط الضوء على ظاهرة تُعرف باسم الهلوسة أو فخ الطلاقة، وهي الحالة التي تبدو فيها إجابات نماذج الذكاء الاصطناعي اللغوية فصيحة للغاية ومنطقية لدرجة تخدع المستخدم وتجعله يظن أن إجاباتها صحيحة تماماً، بينما هي في الواقع تختلق المعلومات.

اعتمدت الدراسة على معيار تقييمي جديد وصارم يسمى FACTS صُمم خصيصاً لقياس الموثوقية الواقعية للنماذج عند الإجابة على أسئلة معقدة تتطلب استرجاع حقائق متعددة، كاشفة أن الفصاحة اللغوية لا تعني بالضرورة الدقة المعلوماتية، وأن النماذج الأكثر تطوراً لا تزال تعاني من معدلات خطأ كبيرة.

أظهرت نتائج الدراسة تفاوتاً رقمياً واضحاً بين النماذج الرائدة عالمياً، حيث تصدر القائمة نموذج Gemini 3 Pro من جوجل محققاً نسبة دقة بلغت 68.8%، تلاه نموذج GPT-5 (أحدث محركات OpenAI) بنسبة 61.8%، في حين حلّ نموذج Grok 4 (من شركة xAI) في المرتبة الثالثة مسجلاً نسبة 53.6%.

هذه الأرقام ورغم أنها تظهر تفوقاً لنموذج جوجل، إلا أنها تحمل في طياتها حقيقة صادمة؛ وهي أن النموذج الأذكى عالمياً لا يزال يخطئ أو يهلوس في نحو 30% من إجاباته الطويلة والمعقدة، بينما تصل نسبة الخطأ في نماذج أخرى إلى ما يقارب النصف، مما يعني أن الاعتماد عليها كمرجع وحيد للحقائق لا يزال مغامرة غير محسوبة العواقب.

يركز مفهوم فخ الطلاقة أو الهلوسة الذي حذرت منه الدراسة على الخطورة الكامنة في قدرة هذه النماذج على صياغة الأكاذيب بأسلوب إنشائي مقنع وبقواعد نحوية سليمة، مما يصعب على البشر اكتشاف الخطأ دون مراجعة المصادر الأصلية.

وقد أوضحت الدراسة أن هذه النماذج تميل غالباً إلى الهلوسة عندما لا تجد المعلومة الدقيقة في بيانات تدريبها، فتقوم بملء الفجوات بمعلومات تبدو منطقية في سياق الجملة لكنها خاطئة واقعياً.

ويعد هذا التقرير بمثابة جرس إنذار للمؤسسات والأفراد الذين يعتمدون بشكل كلي على الذكاء الاصطناعي في المجالات الحساسة كالطب والقانون والبحث العلمي، مؤكداً أننا لا نزال بحاجة ماسة إلى الإشراف البشري للتحقق من صحة المخرجات، وأن الطريق نحو ذكاء اصطناعي موثوق تماماً لا يزال طويلاً رغم القفزات التقنية الهائلة.

جوجل تكشف بالأرقام عن عمق "فخ الطلاقة" في نماذج الذكاء الاصطناعي

مقالات مرتبطة

لماذا يُهلوس ChatGPT وكيف تمنعه إنفيديا من الهلوسة؟

فيسبوك تنافس OpenAI بإطلاقها نموذج ذكاء اصطناعي يفهم اللغة الطبيعية

لامدا: تشات بوت غوغل الذي يمتلك وعي ويشعر مثل البشر

روبوت أميكا الجديد يملك 27 محركاً في الوجه ليقلد المشاعر البشرية

ما هو روبوت المحادثة الجديد ChatGPT وكيف يعمل؟

RadioGPT: أول إذاعة راديو تعمل بالذكاء الاصطناعي

ماهو غوغل بارد؟ المنافس الأبرز لتشات جي بي تي

ما هو Auto-GPT وهل ينافس ChatGPT أم يوسع إمكاناته؟

انفيديا تحول النص إلى فيديو بالذكاء الاصطناعي