من أين يحصل الذكاء الاصطناعي على المعلومات والبيانات؟

الخميس 28 اغسطس 2025 | 10:59 مساءً

الذكاء الاصطناعي

محمد خليفة

كشف تحليل حديث لشركة Semrush عن المواقع الإلكترونية الأكثر استخدامًا كمصادر للمعلومات من قبل نماذج اللغة الكبيرة (LLMs) مثل ChatGPT، مستندًا إلى أكثر من 150 ألف استشهاد في رسائل ماجستير في القانون خلال يونيو 2025.

أكثر المواقع التي يقتبس منها الذكاء الاصطناعي البيانات

أظهر التحليل أن برامج الذكاء الاصطناعي تعتمد بشكل كبير على المحتوى الذي ينشئه المستخدمون، ما يثير تساؤلات حول دقة وموثوقية هذه المعلومات.

وأفاد التحليل أن Reddit يتصدر القائمة بنسبة استشهادات تبلغ 40.1%، يليه Wikipedia بنسبة 26.3%، مما يعكس اعتماد طلاب الماجستير في القانون على مناقشات المنتديات المفتوحة والمحتوى المجتمعي المُدار.

أما بالنسبة للبيانات الجغرافية، فإن Mapbox وOpenStreetMap تحظيان بنسبة استشهاد مرتفعة في الأبحاث القانونية.

مخاطر الاعتماد على محتوى المستخدم

ورغم الثروة المعرفية المتاحة عبر هذه المنصات، فإن طبيعة التحرير المفتوحة تُثير مخاوف كبيرة بشأن الدقة والتحيز، حيث يمكن للذكاء الاصطناعي تعزيز الروايات الأكثر تداولًا بين المستخدمين حتى وإن لم يتم التحقق منها. وأشار التقرير إلى حوادث خطيرة، مثل اقتراح ChatGPT تنقية المياه باستخدام المبيض أو الخل، وهو ما قد يؤدي إلى تكوين غاز الكلور السام.

وحدد التحليل ثلاث مخاطر رئيسية ناجمة عن الاعتماد على محتوى المستخدم:

1- تكرار البيانات غير الدقيقة أو المتحيزة نتيجة عدم مراجعتها من قبل خبراء مختصين.

2- تعزيز الروايات الشعبية غير المؤكدة بينما يتم تجاهل المصادر الأقل انتشارًا والأكثر دقة.

3- الافتقار إلى السلطة والموثوقية خصوصًا في المواضيع الحساسة مثل الصحة والقانون والمالية، حيث يفتقر محتوى المستخدم إلى الإشراف التحريري الضروري.

أكثر المواقع التي يقتبس منها الذكاء الاصطناعي البيانات