قامت جامعة ولاية واشنطن (WSU) باختبار قدرة الذكاء الاصطناعي على تقييم الفرضيات العلمية ــ وحصلت على نتائج غير مرضية.

وتضمنت التجربة، التي نُشرت نتائجها في مجلة Rutgers Business Review، أكثر من 700 فرضية. تمت تجربة ChatGPT 10 مرات لاختبار كل منها.
في عام 2024، أعطى الذكاء الاصطناعي إجابات صحيحة بنسبة 76.5% من الوقت. وفي عام 2025 سترتفع الدقة إلى 80%. ومع ذلك، بعد تعديلها للتخمين العشوائي، تفوقت نتائج الذكاء الاصطناعي على “طريقة الوخز” البسيطة بنسبة 60% فقط.
لقد قام الذكاء الاصطناعي بأسوأ مهمة في تحديد الفرضيات على أنها خاطئة: هنا كانت الدقة 16.4% فقط. بالإضافة إلى ذلك، أظهر ChatGPT عدم اتساق: مع 10 استعلامات متطابقة، قام بتقييم 73% فقط من العبارات بشكل صحيح.
وقال المؤلف الرئيسي للدراسة مسعود جيجك من كلية كارسون للأعمال بجامعة WSU: “المشكلة ليست في الدقة فحسب، بل في عدم الاتساق أيضًا. إذا سألت نفس السؤال مرارًا وتكرارًا، فستحصل على إجابات مختلفة في كل مرة”.
صورة قبيحة
وتابع: “أرسلنا 10 طلبات بنفس السؤال. كان كل شيء متطابقًا. يمكن للذكاء الاصطناعي الإجابة بـ “صحيح”. وفي المرة التالية – “كذبة”. أولاً الحقيقة، ثم كذبة، ثم كذبة أخرى، ثم الحقيقة مرة أخرى. كانت هناك العديد من الحالات التي حصلنا فيها على خمس إجابات صحيحة وخمس إجابات خاطئة”.
ما ينشأ إذن هو صورة قاتمة إلى حد ما: هناك حاجة إلى جرعة صحية من الشك والحذر عند استخدام الذكاء الاصطناعي في المهام المهمة، وخاصة تلك التي تتطلب دقة أو تفكيرًا معقدًا. الطلاقة اللغوية للنماذج الإبداعية لا يدعمها التفكير المفاهيمي. وفقًا لجيجيك، يشير هذا إلى أن عصر ما يسمى بالذكاء الاصطناعي القوي (أي الذكاء الاصطناعي العالمي أو العالمي) الذي يمكنه التفكير حقًا، والذي يتم الترويج له كثيرًا، ليس متوقعًا في أي وقت قريب.
يوضح الباحث: “أدوات الذكاء الاصطناعي الحالية لا تفهم العالم بالطريقة التي نفهمها. ليس لديهم أدمغة. إنهم يتذكرون فقط ويمكنهم نقل بعض الفهم، لكنهم هم أنفسهم لا يدركون ما يتحدثون عنه”.
كيف تحققوا؟
ولاختبار قدرة أدوات الذكاء الاصطناعي الاصطناعية المتاحة للجمهور على الإجابة على الأسئلة التي تتطلب دقة وتحليلا معقدا، تم الحصول على 719 فرضية من المقالات العلمية المنشورة في المجلات التجارية منذ عام 2021. غالبا ما تكون مسألة ما إذا كانت الدراسة تدعم فرضية معينة معقدة: هناك العديد من العوامل المختلفة التي يمكن أن تؤدي إلى تحيز الاستنتاجات أو موازنةها. إن تحويل الإجابة إلى “صحيح” أو “خطأ” يتطلب ببساطة القدرة على التفكير.
في عام 2024، تم اختبار الإصدار المجاني من ChatGPT-3.5، وفي عام 2025، تم تحديث الإصدار المصغر المجاني من ChatGPT-5. تظل الدقة الإجمالية متشابهة بين الإصدارات. عندما تم تعديل النتائج لاحتمال التخمين العشوائي (بعد كل شيء، “لكزة” بسيطة لديها فرصة بنسبة 50٪ لتكون صحيحة)، اتضح أنه في كلتا التجربتين تفوق الذكاء الاصطناعي على الفرصة بنسبة 60٪ فقط من الوقت.
ما يجب القيام به؟
تسلط النتائج الضوء على خلل رئيسي في نماذج اللغة الكبيرة، حيث قال العالم: على الرغم من قدرتها على إنتاج لغة بطلاقة وجذابة، إلا أن قدرتها على التفكير في الأسئلة المعقدة غالبًا ما تضعف، مما يجعلها في بعض الأحيان غير قادرة على تقديم تفسيرات مقنعة للإجابات الخاطئة.
اختبرت هذه الدراسة ChatGPT فقط، لكن Cicek أجرى اختبارات مماثلة باستخدام أدوات الذكاء الاصطناعي الأخرى ووجد بيانات مماثلة.
ونصح قائلاً: “حافظ دائماً على موقف متشكك. أنا لست ضد الذكاء الاصطناعي. أنا أستخدمه أيضاً. لكن عليك أن تكون حذراً للغاية”.