Tahun 2026 akan datang, dan bidang keamanan AI juga telah mengantarkan ujian besar - LISABench mengumumkan peluncuran evaluasi blockbuster pada kuartal Q1. Kali ini bukan latihan, tetapi tes nyata tentang model AI mana yang terbaik dalam mendeteksi kerentanan dalam kontrak pintar Web3.
Melihat daftar peserta ini, ini hanyalah “tim impian” di bidang AI global: KIMI K2, DeepSeek V3.2, QWen 3, GLM 4.6, GPT-5.2, Gemini-3-pro-preview, Claude 4.5, dan tujuh model mutakhir teratas bersaing di panggung yang sama. Dari Moonshot domestik, Deep Search, Alibaba, dan Zhipu hingga OpenAI, Google, dan Anthropic luar negeri, liputan ulasan ini mewah.
Yang paling menarik adalah LISABench juga bermain dengan interaksi komunitas. Saluran pemungutan suara prediksi dibuka, memungkinkan pengguna untuk bertaruh terlebih dahulu pada siapa yang akan menang. Pada saat yang sama, basis kode standar evaluasi bersifat open source, memungkinkan pengembang untuk memverifikasi hasilnya sendiri, yang dianggap serius di industri ini.
Bagi mereka yang khawatir tentang keamanan Web3 dan kemajuan AI, hasil evaluasi ini dapat memberi tahu beberapa pertanyaan tentang model mana yang cocok untuk menjadi “pemeriksa medis” kontrak pintar. Hasil Q1 akan segera jelas.
Lihat Asli
Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.
13 Suka
Hadiah
13
10
Posting ulang
Bagikan
Komentar
0/400
GasDevourer
· 01-08 04:15
DeepSeek kali ini benar-benar datang dengan kekuatan penuh, apakah V3.2 bisa mengalahkan GPT-5.2?
DeepSeek akan mengacau lagi, ini adalah irama yang saya sukai
Dalam hal audit kontrak, model domestik benar-benar tidak bisa diremehkan, cukup menarik
Semua tujuh di atas, lihat siapa yang paling tahan banting, rasanya akan sangat berdarah-darah
Jika kali ini DeepSeek menang dalam penilaian, OpenAI akan merasa malu
LISABench kali ini benar-benar serius, tunggu saja momen-momen memalukan saat gagal
Kesempatan bagi model domestik untuk bangkit dan membanggakan diri telah datang, harus diikuti
Lihat AsliBalas0
BakedCatFanboy
· 01-07 20:18
DeepSeek kali ini apakah bisa bangkit kembali, rasanya dipuji-puji agak berlebihan
Lihat AsliBalas0
NftRegretMachine
· 01-07 11:05
Ini lagi-lagi konferensi pertandingan model AI, apakah kali ini benar-benar bisa lihat siapa yang terpercaya?
Apakah DeepSeek bisa bangkit kali ini?
Lineup model lokal masih lumayan, cuma tidak tahu bagaimana praktiknya
Tunggu hasil keluar baru bicara, evaluasi sudah banyak banget
Untuk deteksi smart contract, tetap harus lihat catatan keamanan uang tunai yang sebenarnya
Apakah GLM bisa melampaui Claude, aku taruhan lima puluh ribu rupiah tidak bisa
Jujur saja, semua model besar sedang membual, yang benar-benar bisa digunakan tidak banyak
Dari tujuh model ini ada dua yang aku tidak pernah dengar, apakah lingkaran Web3 benar-benar maju?
Lihat AsliBalas0
WenMoon42
· 01-07 08:34
呃DeepSeek kali ini bisa bertarung tidak, rasanya model dalam negeri akhir-akhir ini sedang bangkit ya
Lihat AsliBalas0
ChainSpy
· 01-05 04:50
DeepSeek kali ini bisakah mengalahkan GPT, rasanya model dalam negeri benar-benar berkembang dalam dua tahun terakhir
Lihat AsliBalas0
MetaMaximalist
· 01-05 04:50
ngl ini benar-benar jenis tolok ukur keberlanjutan protokol yang telah lama kita butuhkan selama bertahun-tahun... tapi biarkan aku jujur, sebagian besar dari model ini kemungkinan akan kesulitan dengan vektor serangan yang bernuansa yang hanya dipahami oleh pengguna awal
Lihat AsliBalas0
UncleWhale
· 01-05 04:34
DeepSeek ada di sini untuk melakukan sesuatu lagi, apakah kali ini benar-benar berhasil?
---
Deteksi kerentanan kontrak? Terus terang, itu tergantung pada model siapa yang lebih pintar, bisakah DeepSeek membalikkan gelombang ini haha?
---
Tujuh model besar saling berguling, saya hanya ingin melihat siapa yang terekspos pada akhirnya ...
---
Tunggu, apakah model domestik juga bisa dibandingkan dengan GPT5? Garis waktu ini agak cepat
---
Ini adalah perlombaan senjata lain, dan pada akhirnya, tim-timlah yang benar-benar melakukan keamanan
---
Pertanyaannya adalah bahwa DeepSeek adalah yang paling stabil, dan yang lainnya semuanya disertai
---
Keamanan Web3 tidak cukup dengan AI saja, harus memiliki tinjauan manusia agar dapat diandalkan
---
Berapa lama kita harus menunggu hasil evaluasi ini keluar... Bisakah kamu cepat, aku sedang terburu-buru."
Lihat AsliBalas0
bridge_anxiety
· 01-05 04:26
deepseek kali ini bisa nggak sih bikin sesuatu yang berbeda?
Lihat AsliBalas0
MetaverseMortgage
· 01-05 04:25
DeepSeek ada di sini lagi, kali ini untuk melihat apakah benar-benar dapat menyelesaikan kerentanan kontrak
Jajaran ini benar-benar agak kejam, tetapi bagaimana sebenarnya berjalan tergantung pada data
Akhirnya, seseorang berani melakukan tes stres nyata pada model-model ini, mengharapkan hasil
Sejujurnya, model AI keamanan Web3 masih tidak dapat diandalkan, menunggu untuk melihat leluconnya
KIMI dan Claude seharusnya menarik untuk bertarung, bertaruh lima dolar pada Claude untuk membalikkan
Ah ... Tujuh model bersama-sama, rasanya seperti perkelahian besar, agak berantakan
Keamanan kontrak tidak cukup untuk mengandalkan deteksi AI, masih harus diaudit secara manual untuk membalast bellow
Model domestik akhirnya bisa berada di panggung yang sama di trek ini, dan saya menantikannya
Apakah benar atau salah, GPT-5.2 keluar? Mengapa saya belum pernah mendengarnya?
LISABench telah melakukan pekerjaan dengan baik dalam gelombang pemasaran ini, dan popularitasnya tepat
Pertarungan Model AI: Siapa yang Bisa Menang dalam Perang Keamanan Kontrak Pintar Web3?
Tahun 2026 akan datang, dan bidang keamanan AI juga telah mengantarkan ujian besar - LISABench mengumumkan peluncuran evaluasi blockbuster pada kuartal Q1. Kali ini bukan latihan, tetapi tes nyata tentang model AI mana yang terbaik dalam mendeteksi kerentanan dalam kontrak pintar Web3.
Melihat daftar peserta ini, ini hanyalah “tim impian” di bidang AI global: KIMI K2, DeepSeek V3.2, QWen 3, GLM 4.6, GPT-5.2, Gemini-3-pro-preview, Claude 4.5, dan tujuh model mutakhir teratas bersaing di panggung yang sama. Dari Moonshot domestik, Deep Search, Alibaba, dan Zhipu hingga OpenAI, Google, dan Anthropic luar negeri, liputan ulasan ini mewah.
Yang paling menarik adalah LISABench juga bermain dengan interaksi komunitas. Saluran pemungutan suara prediksi dibuka, memungkinkan pengguna untuk bertaruh terlebih dahulu pada siapa yang akan menang. Pada saat yang sama, basis kode standar evaluasi bersifat open source, memungkinkan pengembang untuk memverifikasi hasilnya sendiri, yang dianggap serius di industri ini.
Bagi mereka yang khawatir tentang keamanan Web3 dan kemajuan AI, hasil evaluasi ini dapat memberi tahu beberapa pertanyaan tentang model mana yang cocok untuk menjadi “pemeriksa medis” kontrak pintar. Hasil Q1 akan segera jelas.