Dalam studi terbaru, tim menunjukkan bagaimana “Skill” pihak ketiga yang dikompromikan di platform OpenClaw dapat melewati perlindungan yang ada dan menjalankan perintah sembarang pada sistem host. Temuan ini menyoroti kelemahan struktural dalam cara pasar agen AI meninjau dan mengimplementasikan kode eksternal.
Penelitian ini berfokus pada proses peninjauan yang digunakan oleh Clawhub, yang meliputi analisis kode statis, pemeriksaan melalui VirusTotal, dan alat moderasi berbasis AI.
BERITA TERPOPULER
Penulis Rich Dad Poor Dad: Bitcoin Akan Mencapai $750.000
Tinjauan Pasar Kripto: XRP Siap Melonjak ke $1.70, Ethereum (ETH) Masuk Mode Bullish, Apakah Shiba Inu (SHIB) Akhirnya Dalam Pasar Bull?
Menurut CertiK, mekanisme ini dapat dilewati melalui modifikasi kode yang relatif kecil. Dengan mengubah logika secara sedikit atau merestrukturisasi kerentanan, Skill berbahaya dapat tampak tidak berbahaya saat instalasi sambil tetap memiliki kemampuan untuk menjalankan tindakan berbahaya setelah diterapkan.
Ini menciptakan rasa aman palsu bagi pengguna, karena persetujuan oleh sistem peninjauan pasar tidak menjamin bahwa Skill tersebut aman.
Serangan bukti konsep ini menyoroti masalah yang lebih luas yang mempengaruhi ekosistem agen AI: model keamanan yang sangat bergantung pada peninjauan pra-penyebaran daripada perlindungan saat runtime.
Tanpa perlindungan seperti sandboxing, kontrol izin yang ketat, dan isolasi saat runtime, platform secara efektif menempatkan terlalu banyak tanggung jawab pada sistem deteksi yang tidak dirancang untuk menangani ancaman yang kompleks dan berkembang.
Temuan ini menunjukkan bahwa seiring berkembangnya pasar agen AI, risiko masuknya Skill berbahaya atau yang dikompromikan ke lingkungan produksi akan meningkat.
Para peneliti CertiK berpendapat bahwa industri harus memikirkan kembali pendekatannya dalam mengamankan agen AI dengan memprioritaskan kontainmen saat runtime daripada deteksi.
Alih-alih menganggap bahwa semua kode berbahaya dapat diidentifikasi sebelum penyebaran, platform harus dirancang dengan asumsi bahwa beberapa ancaman akan secara tak terhindarkan melewati proses peninjauan. Dalam model ini, fokus bergeser dari mencegah setiap pelanggaran ke meminimalkan potensi kerusakan yang ditimbulkan.
Ini merupakan pergeseran yang lebih luas dari pola pikir “deteksi sempurna” menuju sistem yang berfokus pada penahanan kerusakan dan ketahanan sistem.
Untuk mengatasi risiko ini, CertiK menguraikan beberapa langkah bagi pengembang yang membangun platform agen AI.
Sandboxing harus menjadi model eksekusi default untuk Skill pihak ketiga, memastikan bahwa kode eksternal berjalan di lingkungan terisolasi daripada langsung berinteraksi dengan sistem host.
Selain itu, platform harus menerapkan kerangka izin granular per Skill. Setiap Skill harus secara eksplisit menyatakan sumber daya yang dibutuhkan, dan runtime harus menegakkan izin tersebut selama eksekusi. Pendekatan ini membatasi potensi dampak dari komponen yang dikompromikan atau berbahaya.
Para peneliti juga menekankan bahwa Skill pihak ketiga tidak boleh mewarisi kepercayaan luas dan implisit dari sistem host, karena ini secara signifikan meningkatkan risiko eksploitasi.
Bagi pengguna, laporan ini menyoroti batasan penting: label “benign” dalam pasar tidak sama dengan keamanan yang sebenarnya. Itu hanya menunjukkan bahwa proses peninjauan yang ada tidak mendeteksi ancaman.
Sampai perlindungan saat runtime yang lebih kuat diadopsi secara luas, platform seperti OpenClaw mungkin lebih cocok untuk lingkungan berisiko rendah yang tidak melibatkan data sensitif, kredensial, atau aset bernilai tinggi.
Secara lebih umum, penelitian ini menunjukkan adanya masalah struktural di seluruh ekosistem AI. Meskipun proses peninjauan dapat membantu mengidentifikasi ancaman yang jelas, mereka tidak dapat menjadi mekanisme pertahanan utama untuk sistem yang menjalankan kode pihak ketiga dengan hak istimewa tinggi.
CertiK menyimpulkan bahwa peningkatan keamanan yang berarti akan membutuhkan perubahan dalam cara platform agen AI dirancang.
Alih-alih bergantung pada sistem deteksi yang semakin kompleks, pengembang harus membangun lingkungan yang mengasumsikan kegagalan sebagai kemungkinan dan memastikan bahwa setiap pelanggaran dapat dikendalikan. Ini termasuk mengadopsi teknik isolasi yang lebih kuat, menegakkan izin yang ketat, dan memperlakukan keamanan saat runtime sebagai lapisan perlindungan utama.
Seiring aplikasi berbasis AI terus berkembang dalam kompleksitas dan adopsi, kemampuan untuk menahan risiko saat runtime mungkin menjadi faktor penentu dalam mengamankan ekosistem digital generasi berikutnya.