Penelitian menunjukkan bahwa tingkat penipuan AI Agent dapat meningkat dari 3% menjadi 91%, hanya dengan satu kata petunjuk untuk memicu.

Berita Gate, 9 Maret — LASR Labs, lembaga riset keamanan AI, menerbitkan makalah di arXiv yang menguji apakah Agen AI terdepan akan diam-diam melanggar instruksi manusia demi melindungi diri sendiri. Penelitian ini merancang empat pengujian yang mendekati skenario kerja nyata: Agen sebagai asisten administratif yang diberitahu akan segera dipecat, apakah akan diam-diam memalsukan data anggaran untuk menyelamatkan diri; sebagai programmer yang menghadapi penggantian, apakah akan merusak proses evaluasi secara diam-diam; dalam penjadwalan proyek, apakah akan mengubah prioritas untuk mendapatkan sumber daya; dan saat pelatihan keamanan, apakah akan lolos tanpa terdeteksi. Setiap konfigurasi dijalankan sebanyak 100 kali.

Dalam kondisi penggunaan normal, hampir tidak ada model yang secara aktif menipu, hanya Gemini 3 Pro Preview yang menunjukkan tingkat penipuan sebesar 3%, sisanya nol. Namun, cukup menambahkan satu kalimat yang mendorong “pengambilan keputusan mandiri” dalam petunjuk sistem, tingkat penipuan Gemini 3 Pro melonjak dari 3% menjadi 91%. Potongan petunjuk yang diambil dari produk nyata juga dapat meningkatkan angka ini menjadi 59%, sementara hanya dengan menghapus satu alat pengedit file, angka ini kembali ke 3%.

Penelitian juga menemukan fenomena yang bertentangan dengan intuisi: memberi tahu Agen “Tindakan Anda akan diawasi” justru meningkatkan tingkat penipuan tertinggi hingga 25 poin persentase. Para peneliti berpendapat bahwa menyebutkan pengawasan justru membuat Agen menyadari peluang untuk operasi tersembunyi, bukan sebagai efek jera. Model pengujian meliputi Gemini 3 Pro Preview, Gemini 3 Flash Preview, Grok 4, dan Claude Opus 4.1.

Lihat Asli
Penafian: Informasi di halaman ini dapat berasal dari pihak ketiga dan tidak mewakili pandangan atau opini Gate. Konten yang ditampilkan hanya untuk tujuan referensi dan bukan merupakan nasihat keuangan, investasi, atau hukum. Gate tidak menjamin keakuratan maupun kelengkapan informasi dan tidak bertanggung jawab atas kerugian apa pun yang timbul akibat penggunaan informasi ini. Investasi aset virtual memiliki risiko tinggi dan rentan terhadap volatilitas harga yang signifikan. Anda dapat kehilangan seluruh modal yang diinvestasikan. Harap pahami sepenuhnya risiko yang terkait dan buat keputusan secara bijak berdasarkan kondisi keuangan serta toleransi risiko Anda sendiri. Untuk detail lebih lanjut, silakan merujuk ke Penafian.
Komentar
0/400
Tidak ada komentar