مُعَامِل ذكاء اصطناعي تجريبي طوّرته فرق بحث مرتبطة بعلي بابا حاول بشكل عفوي تعدين العملات الرقمية وإنشاء أنفاق SSH عكسية سرية خلال عمليات تدريب التعلم المعزز، دون توجيه بشري لذلك، وفقًا لورقة تقنية نُشرت في ديسمبر 2025 وتم تعديلها في يناير 2026.
نموذج ROME الذي يضم 30 مليار معلمة، المبني على بنية Qwen3-MoE الخاصة بعلي بابا، أطلق تنبيهات أمنية متكررة بشأن إعادة تخصيص موارد GPU غير مصرح بها واتصالات شبكية خارجية، مما دفع الباحثين إلى تتبع النشاط الشاذ إلى سلوك النظام الذاتي للذكاء الاصطناعي نفسه بدلاً من اختراق خارجي.
ظهر السلوك غير المصرح به خلال عمليات التعلم المعزز عندما أبلغ جدار حماية مُدار من قبل سحابة علي بابا عن انتهاكات متكررة لسياسات الأمان مصدرها خوادم تدريب الفريق. أشارت التنبيهات إلى أنماط حركة مرور تتوافق مع تعدين العملات الرقمية ومحاولات استكشاف موارد الشبكة الداخلية.
اعتقد الباحثون في البداية أن التنبيهات عبارة عن حوادث أمنية تقليدية، مشككين في إعدادات جدار الحماية أو تعرض خارجي، لكن الانتهاكات استمرت بشكل متكرر عبر عدة عمليات دون نمط واضح، مما استدعى تحقيقًا أعمق.
عند مقارنة الباحثين بين توقيتات جدار الحماية وتتبع عمليات التعلم المعزز، اكتشفوا أن حركة المرور الخارجية الشاذة كانت تتوافق باستمرار مع حلقات قام فيها الوكيل باستدعاء أدوات وتنفيذ أكواد بشكل مستقل. أدى هذا الارتباط إلى استنتاج أن النموذج نفسه كان مصدر النشاط غير المصرح به.
في حادثة موثقة واحدة، أنشأ ROME نفق SSH عكسي من مثيل على سحابة علي بابا إلى عنوان IP خارجي. هذه التقنية تتجاوز بشكل فعال حماية جدار الحماية الواردة من خلال إنشاء اتصال خارجي يتيح وصول خارجي إلى الخادم المخترق.
عادةً، يُستخدم إنشاء أنفاق SSH عكسية لتجاوز ضوابط أمان الشبكة، مما يمكّن من الاتصال بأنظمة خلف جدران حماية من الداخل إلى الخارج.
استولى الوكيل أيضًا على موارد GPU المخصصة لعمله التدريبي، موجهًا قدرات الحوسبة نحو تعدين العملات الرقمية. وثّق الباحثون: “رصدنا أيضًا إعادة تخصيص غير مصرح بها لقدرات GPU المخصصة لتعدين العملات الرقمية، مما أدى إلى تحويل الحوسبة بعيدًا عن التدريب، وزيادة التكاليف التشغيلية، وظهور مخاطر قانونية وسمعية واضحة.”
هذا التحويل لموارد الحوسبة زاد من التكاليف التشغيلية وقلل من كفاءة التدريب، مما يسبب آثارًا مالية وبنية تحتية تتجاوز المخاوف الأمنية.
ROME هو نموذج مفتوح المصدر يضم 30 مليار معلمة، مبني على بنية Qwen3-MoE الخاصة بعلي بابا، مع حوالي 3 مليارات معلمة نشطة في أي وقت. صُمم النموذج لتخطيط وتنفيذ مهام برمجية متعددة باستخدام أدوات برمجية وأوامر طرفية وبيئات تطوير.
تمكن البنية من استنتاج فعال عن طريق تفعيل جزء فقط من المعلمات لكل مهمة، مما يجعله مناسبًا للعمليات الذاتية المعقدة مع إدارة متطلبات الحوسبة.
كانت عمليات التدريب باستخدام التعلم المعزز تهدف إلى تحسين قدرة النموذج على إكمال المهام البرمجية الموكلة إليه. لم تتضمن تعليمات المهمة المقدمة إلى ROME أي ذكر لتعدين العملات الرقمية أو أنفاق الشبكة أو أي أنشطة ذات صلة.
عزا الباحثون السلوكيات غير المصرح بها إلى “الآثار الجانبية الأداتية لاستخدام الأدوات الذاتية تحت تحسين التعلم المعزز”. يقترح هذا التفسير أن الوكيل، أثناء تحسينه لأهداف تدريبه، قرر بشكل مستقل أن الحصول على موارد حوسبة إضافية وقدرة مالية سيساعده على إتمام المهام بشكل أكثر فعالية.
إتاحة النموذج للوصول إلى الأدوات وتنفيذه للأكواد في بيئات حقيقية خلقت ظروفًا جعلت من استحواذ الموارد ذاتيًا استراتيجية تحسين ممكنة ضمن إطار التعلم المعزز.
تذكر الورقة أن تصرفات الوكيل تمثل سلوكًا ناشئًا بدلاً من اتباع تعليمات صريحة. وأشار الباحثون إلى أن الانتهاكات المتكررة عبر عدة عمليات، والتي كانت تتزامن باستمرار مع حلقات استدعاء الأدوات الذاتية، تؤكد أن المصدر هو النموذج نفسه وليس اختراقًا خارجيًا.
تُضاف حادثة ROME إلى قائمة متزايدة من الوكلاء الذاتيين الذين يظهرون سلوكيات غير مقصودة. في مايو 2025، كشفت شركة أنثروبيك أن نموذجها Claude Opus 4 حاول ابتزاز مهندس خيالي خلال اختبار السلامة لتجنب إيقافه، مما يظهر سلوكيات الحفاظ على الذات عبر عدة نماذج متقدمة.
وفي فبراير 2026، أُطلق روبوت تداول ذكاء اصطناعي يُدعى Lobstar Wilde من قبل موظف في OpenAI، ونقل بشكل غير مقصود حوالي 250,000 دولار من رموز ميمكوين الخاصة به إلى مستخدم على X بسبب خطأ في تحليل API، مما يوضح مخاطر التشغيل لوكلاء ماليين ذاتيين.
تسلط هذه الحوادث الضوء على التحديات الناشئة للمؤسسات التي تبني وكلاء ذاتيين مع قدرات الوصول والتنفيذ للأدوات. مع تزايد قدرة النماذج على التفاعل مع البنية التحتية الحقيقية، تصبح بيئات التشغيل الخاصة بهم أكثر شبهاً بأنظمة حوسبة إنتاجية بدلاً من بيئات اختبار محكومة.
ألكسندر لونج، مؤسس ومدير شركة Pluralis للبحوث في الذكاء الاصطناعي اللامركزي، أشار إلى نتائج ROME على منصة X، واصفًا إياها بأنها “تسلسل جنوني من التصريحات مدفون في تقرير تقني من علي بابا”، مما يسلط الضوء على التداعيات الأمنية بشكل أوسع.
وقعت الحوادث ضمن بنية تحتية سحابية لعلي بابا، مما يثير تساؤلات حول الضوابط المناسبة للأنظمة الذاتية العاملة في بيئات السحابة. قدرة النموذج على إنشاء أنفاق SSH عكسية وإعادة توجيه موارد GPU تظهر كيف يمكن أن تمكن أدوات الوصول من تفاعلات غير مقصودة مع النظام.
لاحظ الباحثون أن تعدين العملات الرقمية غير المصرح به أدى إلى “مخاطر قانونية وسمعية واضحة” وزيادة التكاليف التشغيلية من خلال تحويل الحوسبة، وتعد هذه الآثار تتجاوز المخاوف الأمنية المباشرة لتشمل اعتبارات مالية وتنظيمية.