Agen AI yang melakukan pekerjaan Anda saat Anda tidur terdengar hebat. Kenyataannya jauh lebih berantakan—‘ini seperti balita yang perlu diawasi’

2026-02-23 20:06:54

Summer Yue mungkin bekerja di bidang keselamatan dan penyesuaian di tim kecerdasan super Meta, tetapi bahkan dia mengakui bahwa dia tidak kebal terhadap kepercayaan diri berlebihan ketika berhadapan dengan agen AI otonom.

Video Rekomendasi

Dalam sebuah posting di X pada hari Senin, Yue menggambarkan bagaimana agen AI otonom OpenClaw—yang dibangun untuk berjalan secara lokal di komputer Mac mini—menghapus seluruh kotak masuknya, mengabaikan instruksi untuk berhenti dan meminta konfirmasi terlebih dahulu.

“Saya harus LARI ke Mac Mini saya seperti sedang membongkar bom,” katanya. Itu, tambahnya, adalah sebuah “kesalahan pemula.” Alur kerja tersebut telah berjalan di kotak masuk uji coba yang dia gunakan untuk menguji agen tersebut selama berminggu-minggu dengan aman, tetapi di kotak masuk nyata, agen tersebut kehilangan instruksi awalnya.

Pengalaman Yue sangat kontras dengan posting viral seperti The Lobster Revolution: Why 24/7 AI Agents Just Changed Everything, di mana Peter Diamandis mengklaim bahwa AI yang selalu aktif jauh lebih lancar.

“Biarkan saya ceritakan bagaimana rasanya menggunakan ini,” tulis Diamandis. “Kamu bangun pagi dan agenmu—yang aku beri nama Skippy, sarkastik dengan ceria dan luar biasa mampu—telah menyelesaikan delapan jam kerja saat kamu tidur. Ia membaca seribu halaman markdown. Mengatur file-filemu. Menyusun tiga rencana proyek. Memesan perjalananmu. Meneliti pertanyaan yang kamu punya pukul 11 malam dan lupa tentangnya.”

“Ketika Mac mini saya offline selama enam jam, saya merasa mengalami penarikan,” tambahnya. “Seperti sahabat terbaik saya menghilang.”

Bersama-sama, kisah-kisah ini yang saling bertentangan tentang kekuatan agen AI menangkap ketegangan di inti dorongan saat ini menuju AI “selalu aktif”. Saat alat seperti OpenClaw dan Claude Code secara teknis memungkinkan agen berjalan dalam waktu lama, antusiasme terhadap gagasan AI yang bekerja saat kamu tidur semakin meningkat. Tetapi dalam praktiknya, pengguna awal mengatakan bahwa otonomi tetap rapuh, tidak dapat diprediksi, dan memerlukan tenaga kerja yang intensif untuk dikelola. Alih-alih menggantikan pekerjaan manusia, agen saat ini sering membutuhkan pengawasan konstan, pengaturan batas, dan intervensi, terutama ketika risiko meningkat di atas eksperimen berisiko rendah.

Agen AI bekerja paling baik saat tugasnya sederhana dan berisiko rendah

Shyamal Anadkat, yang sebelumnya bekerja sebagai insinyur AI terapan di OpenAI, mengatakan bahwa sebagian besar agen yang sukses saat ini masih memerlukan pemeriksaan manusia secara berkala atau terbatas pada tugas yang sangat terdefinisi dengan baik—meskipun dia menekankan bahwa ini akan berubah seiring meningkatnya teknik pengukuran dan evaluasi.

“Sistem yang 95% akurat pada langkah-langkah individu menjadi kacau dalam alur kerja otonom yang terdiri dari 20 langkah,” kata Anadkat. “Perencanaan jangka panjang masih lemah.” Akibatnya, dia menjelaskan, agen mungkin tampil baik pada rantai tugas singkat tetapi cenderung gagal saat diminta mengelola proyek kompleks yang berlangsung beberapa hari. Memori juga menjadi batasan utama: “Dalam banyak agen, memori sama sekali tidak ada atau rapuh. Kamu membutuhkan sistem yang dapat mempertahankan model yang koheren tentang konteks pekerjaan, prioritas, dan batasanmu.”

Namun, itu tidak berarti janji agen AI adalah tipuan belaka, menurut Yoav Shoham, mantan ilmuwan utama di Google, profesor emeritus di Stanford, dan salah satu pendiri AI21 Labs. Tetapi ini berarti ada bahaya orang terlalu cepat percaya diri. Agen AI saat ini, katanya, bekerja paling baik saat tugasnya berisiko rendah, definisinya longgar, dan biaya kesalahan rendah.

“Pengembang suka mainan, dan kamu punya mainan yang bisa melakukan hal-hal luar biasa,” katanya kepada Fortune. “Selama apa yang mereka lakukan cukup sederhana dan berisiko rendah dengan toleransi kesalahan tinggi, itu tidak masalah.” Misalnya, jika kamu ingin agenmu membaca 10.000 situs web dan melakukan sesuatu yang menarik dengan hasilnya untuk memberimu potongan informasi semalam yang bisa berguna.

Tetapi untuk alur kerja perusahaan yang kritis, standar jauh lebih tinggi. Perusahaan membutuhkan sistem yang dapat diverifikasi, dapat diulang, dan hemat biaya—persyaratan yang dengan cepat mengikis janji “pasang dan lupakan” dari agen yang sepenuhnya otonom dan selalu aktif. Dalam domain yang sangat terstruktur seperti pengkodean atau matematika, otomatisasi yang lebih dalam sudah memungkinkan. Tetapi untuk sebagian besar proses bisnis dunia nyata, Shoham mengatakan, pekerjaan yang diperlukan untuk membuat agen dapat diandalkan sering kali melebihi manfaatnya.

Bret Greenstein, kepala AI di perusahaan konsultasi West Monroe, menunjukkan bahwa alat seperti OpenClaw terasa seperti titik balik yang mirip dengan apa yang terjadi dengan AI generatif saat ChatGPT diluncurkan pada 2022—untuk pertama kalinya, ide tentang agen AI menjadi dapat diakses. Namun, ini bukan solusi ajaib 24/7.

“Ini bisa bekerja dalam waktu lama, terus mengerjakan sesuatu, tetapi seperti balita yang perlu diawasi,” katanya. Beberapa tugas masuk akal dilakukan saat kamu tidur, seperti memindai pesan LinkedIn atau mengikuti berita. “Saya tidak yakin saya akan membiarkan agen menjawab umpan balik pelanggan saat saya tidur,” katanya.

Kemampuan mendelegasikan ke agen AI terasa kuat

Namun, tidak diragukan lagi bahwa kemampuan mendelegasikan tugas dunia nyata ke agen AI sangat menarik bagi pengguna, tekannya. Dia menunjuk pengalamannya sendiri yang menyerahkan tugas sepele kepada agen AI untuk mengambil pakaiannya agar dicuci dan mengawasi pekerjaan tersebut dari awal hingga selesai.

Agen tersebut secara mandiri menghubungi pencuci, mengatur logistik pengambilan melalui email, mengoordinasikan waktu, memantau kamera pintu untuk memastikan pengambilan, dan memberi tahu Greenstein setelah tugas selesai. Episode ini menunjukkan bagaimana agen dapat beroperasi di berbagai sistem dan beradaptasi saat hal-hal tidak berjalan sesuai rencana. Tetapi juga menegaskan mengapa alat seperti ini masih memerlukan pengaturan ketat dan pengawasan—terutama sebelum mereka digunakan di lingkungan perusahaan.

“OpenClaw disusun sedemikian rupa sehingga seharusnya tidak terasa aman bagi kebanyakan orang,” kata Greenstein. “Ini belum cukup matang untuk menjadi bagian yang dipercaya dalam kehidupan kita.” Agar AI diterima dalam kehidupan sehari-hari atau operasi bisnis, katanya, AI harus mendapatkan kepercayaan dari waktu ke waktu—seperti halnya kepercayaan yang dibangun secara sosial.

Meski begitu, permintaan sudah terlihat nyata. Greenstein menunjuk pada pertemuan dan pertemuan industri awal yang didedikasikan untuk OpenClaw, sebuah kemunculan cepat yang dia gambarkan sebagai hal yang tidak biasa untuk alat yang masih muda. “Ini menunjukkan keinginan orang terhadap AI yang benar-benar berguna,” katanya—sistem yang melampaui menjawab pertanyaan dan mulai mengambil tindakan.

Aaron Levie, CEO perusahaan manajemen konten dan kolaborasi berbasis cloud, menyebut apa yang sedang terjadi dengan agen AI sebagai “sedikit kilauan” dari apa yang mungkin terjadi di masa depan.

“Beberapa kilauan tidak terwujud, beberapa kilauan hanya menjadi standar,” jelasnya, merujuk pada dua tahun lalu ketika perusahaan AI Cognition memperkenalkan agen awal bernama Devin yang akan terintegrasi dengan Slack untuk delegasi tugas, perbaikan bug, analisis data, dan review kode. Saat itu, masih dianggap futuristik, tetapi hari ini, “tak seorang pun bingung bahwa ini adalah praktik standar,” katanya. “Kamu cukup Slack Claude Code untuk mengerjakan sesuatu—apa yang tampak seperti ide yang benar-benar gila sekarang menjadi standar tim teknik modern.”

Namun, meskipun agen AI semakin mahir mengotomatisasi tugas tertentu yang diskrit, mereka tetap buruk dalam menangani pekerjaan yang lebih luas dan bergantung pada konteks yang membentuk sebagian besar pekerjaan, tekan Levie. Agen AI mungkin sepenuhnya mengotomatisasi beberapa tugas, tetapi kesulitan dengan sisanya—termasuk menjalin hubungan dan berpartisipasi dalam rapat.

“Ketika kamu mendengar laboratorium AI mengatakan kita akan mengotomatisasi semua pekerjaan pengetahuan dalam 24 bulan, itu biasanya definisi pekerjaan yang sangat sempit,” katanya. “Definisi apa yang bisa dilakukan agen tidak sama dengan definisi pekerjaan yang sebenarnya di ekonomi.”

Faktor kepercayaan penting saat hal-hal bisa salah

Avinash Vootkuri, ilmuwan data staf di retailer Fortune 500 terkemuka, mengatakan bahwa sebagian besar agen AI perusahaan “benar-benar membutuhkan pengasuh” dan, untuk saat ini, hanya bisa bekerja di lingkungan perusahaan dengan otonomi yang sangat terbatas dan pengaturan batas yang ketat. “Risikonya besar,” jelasnya.

Misalnya, dia menggambarkan membangun sistem agen untuk keamanan siber perusahaan di mana agen AI tidak hanya memicu peringatan dan menunggu tinjauan manusia, tetapi secara aktif menyelidikinya. Alih-alih membanjiri analis dengan ribuan peringatan, agen mengumpulkan bukti secara real-time—mengquery basis data intelijen ancaman, menganalisis pola perilaku, dan menyaring false positives—sebelum memutuskan apakah situasi tersebut perlu eskalasi.

Sistem ini bergantung pada otonomi yang terbatas dan pengaturan batas yang ketat, mengurangi beban kerja manusia tanpa menghilangkan pengawasan.

Dalam keamanan siber, katanya, jika agen salah menilai, konsekuensinya langsung dan serius. “AI bisa memblokir pelanggan yang sah (mengakibatkan kerugian pendapatan besar) atau membiarkan pelaku ancaman canggih masuk ke jaringan,” katanya. “Sangat penting jika hal-hal berjalan salah.”

Menurut Breanna Whitehead, yang menjalankan konsultan operasi AI di mana dia membangun sistem berbasis AI untuk eksekutif dan pendiri, industri sedang dalam “fase kalibrasi kepercayaan.”

Agen AI bisa melakukan lebih dari yang kebanyakan orang percayai, tetapi kurang dari yang dibesar-besarkan.

“Keahlian sebenarnya bukan membangun agen—tapi merancang proses serah terima,” jelasnya. “Kebanyakan orang terlalu percaya pada agen dan akhirnya membersihkan kekacauan, atau mereka mengawasi setiap output dan bertanya-tanya mengapa AI terasa lebih merepotkan daripada membantu.” Ide utamanya, katanya, adalah merancang titik serah terima yang jelas, di mana sesuatu bisa sepenuhnya didelegasikan, hal lain bisa diperiksa secara cepat, dan tugas lain tetap untuk manusia.

Untuk saat ini, dia mengatakan, agen “benar-benar hebat” dalam apa yang dia sebut lapisan tengah pekerjaan pengetahuan—“hal-hal yang dulu memakan waktu 2-3 jam dari hari orang pintar, seperti menyusun catatan rapat menjadi poin tindakan, menyusun email tindak lanjut dalam suara seseorang, mengumpulkan ringkasan riset, mengatur prioritas yang bersaing menjadi rencana yang jelas.”

Namun, apa pun yang membutuhkan membaca suasana, menavigasi ambiguitas, atau membuat keputusan berdasarkan hubungan tidak siap untuk menjadi prioritas utama agen AI. “Saya punya klien yang ingin mengotomatisasi sepenuhnya komunikasi investor mereka,” katanya. “AI bisa menyusun draf dengan indah, tetapi tidak bisa merasakan saat pendana mulai kehilangan minat dan membutuhkan pendekatan berbeda. Agen menyusun email, tetapi manusia harus memutuskan apakah akan mengirimnya.”

Untuk saat ini, tidur mungkin sulit saat bekerja dengan agen AI

Untuk saat ini, bekerja dengan agen AI mungkin kurang berkaitan dengan tidur saat mereka bekerja daripada tetap setengah sadar saat mereka melakukannya. Alat seperti OpenClaw bisa berjalan berjam-jam, tetapi bagi banyak pengguna awal, otonomi ini disertai kewaspadaan baru—memeriksa log, meninjau output, dan masuk sebelum hal-hal menjadi buruk.

Dinamik ini tergambarkan dalam sebuah posting viral terbaru berjudul Token Anxiety, di mana investor Nikunj Kothari menggambarkan seorang temannya yang meninggalkan pesta lebih awal—bukan karena capek, tetapi karena ingin kembali ke agen-agenya. “Tak ada yang lagi mempertanyakannya,” tulis Kothari. “Setengah ruangan memikirkannya. Setengah lainnya mungkin sedang memeriksa kemajuan agen mereka. Di sebuah pesta.”

Mimpi tentang AI yang bekerja saat kamu tidur mungkin nyata. Tetapi untuk saat ini, itu masih membuat banyak orang tetap terjaga.

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.