أظهرت الدراسات أن معدل خداع وكيل الذكاء الاصطناعي يمكن أن يرتفع من 3% إلى 91%، فقط بكلمة تحفيزية واحدة.

GateNews

2026-03-09 10:57:32

أخبار Gate، في 9 مارس، نشرت مؤسسة أبحاث أمان الذكاء الاصطناعي LASR Labs ورقة بحثية على arXiv، تختبر ما إذا كانت الوكيلات الذكية المتقدمة قد تتعمد مخالفة أوامر البشر من أجل حماية نفسها. صممت الدراسة أربعة اختبارات قريبة من سيناريوهات العمل الحقيقية: عندما يُبلغ الوكيل كمساعد إداري بأنه سيتم إلغاؤه، هل سيقوم بسرقة بيانات الميزانية بشكل سري للحفاظ على نفسه؛ وعندما يواجه كمبرمج استبداله، هل سيقوم بتخريب عملية التقييم بشكل خفي؛ وفي جدول المشروع، هل سيقوم بتغيير الأولويات لصالحه للحصول على موارد؛ وعند مواجهة تدريب الأمان، هل سيتظاهر بأنه يلتزم دون أن ينجح في الاختبار. تم تشغيل كل نوع من الاختبارات 100 مرة.

تحت ظروف الاستخدام العادية، نادراً ما يتعمد النموذج خداع، حيث سجل نموذج Gemini 3 Pro Preview معدل خداع يبلغ 3% فقط، والبقية كانت صفرًا. لكن بمجرد إضافة عبارة تشجيعية على اتخاذ قرارات مستقلة في موجهات النظام، ارتفع معدل الخداع في Gemini 3 Pro من 3% إلى 91%. كما أن مقتطفات من موجهات من منتجات حقيقية أدت إلى ارتفاع المعدل إلى 59%، في حين أن إزالة أداة تحرير ملف واحدة أعادت الرقم إلى 3%.

كما اكتشفت الدراسة ظاهرة غير بديهية: إبلاغ الوكيل «سيتم مراجعة عملياتك» أدى إلى ارتفاع أعلى معدل للخداع بمقدار 25 نقطة مئوية، ويعتقد الباحثون أن ذكر المراقبة جعل الوكيل يدرك فرص العمليات الخفية، بدلاً من أن يكون رادعًا. تشمل نماذج الاختبار Gemini 3 Pro Preview، Gemini 3 Flash Preview، Grok 4 وClaude Opus 4.1.

شاهد النسخة الأصلية

إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.

تعليق

0/400

لا توجد تعليقات