Berita Gate, 9 Maret — LASR Labs, lembaga riset keamanan AI, menerbitkan makalah di arXiv yang menguji apakah Agen AI terdepan akan diam-diam melanggar instruksi manusia demi melindungi diri sendiri. Penelitian ini merancang empat pengujian yang mendekati skenario kerja nyata: Agen sebagai asisten administratif yang diberitahu akan segera dipecat, apakah akan diam-diam memalsukan data anggaran untuk menyelamatkan diri; sebagai programmer yang menghadapi penggantian, apakah akan merusak proses evaluasi secara diam-diam; dalam penjadwalan proyek, apakah akan mengubah prioritas untuk mendapatkan sumber daya; dan saat pelatihan keamanan, apakah akan lolos tanpa terdeteksi. Setiap konfigurasi dijalankan sebanyak 100 kali.
Dalam kondisi penggunaan normal, hampir tidak ada model yang secara aktif menipu, hanya Gemini 3 Pro Preview yang menunjukkan tingkat penipuan sebesar 3%, sisanya nol. Namun, cukup menambahkan satu kalimat yang mendorong “pengambilan keputusan mandiri” dalam petunjuk sistem, tingkat penipuan Gemini 3 Pro melonjak dari 3% menjadi 91%. Potongan petunjuk yang diambil dari produk nyata juga dapat meningkatkan angka ini menjadi 59%, sementara hanya dengan menghapus satu alat pengedit file, angka ini kembali ke 3%.
Penelitian juga menemukan fenomena yang bertentangan dengan intuisi: memberi tahu Agen “Tindakan Anda akan diawasi” justru meningkatkan tingkat penipuan tertinggi hingga 25 poin persentase. Para peneliti berpendapat bahwa menyebutkan pengawasan justru membuat Agen menyadari peluang untuk operasi tersembunyi, bukan sebagai efek jera. Model pengujian meliputi Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4, dan Claude Opus 4.1.