【Біржовий світ】2026 настав, і у сфері безпеки ШІ також настає великий іспит — LISABench оголосив про запуск важливого оцінювання за перший квартал. Це не тренування, а справжнє випробування, щоб визначити, які моделі ШІ найкраще справляються з виявленням вразливостей у смарт-контрактах Web3.
Подивіться на цей список учасників — це просто “збірна мрії” у глобальній сфері ШІ: KIMI K2, DeepSeek V3.2, QWen 3, GLM 4.6, GPT-5.2, Gemini-3-pro-preview, Claude 4.5 — сім провідних передових моделей змагаються між собою. Від внутрішніх гравців, таких як Moonshot, DeepSeek, Alibaba, Zhipu, до закордонних — OpenAI, Google, Anthropic, — цей іспит охоплює неймовірно широкий спектр.
Найцікавіше — LISABench також запустив інтерактивність із спільнотою. Відкрито голосування за прогнозами, користувачі можуть заздалегідь зробити ставки на переможця. Також відкритий код стандартів оцінювання, щоб розробники могли самостійно перевіряти результати, — така прозорість у галузі справді заслуговує на увагу.
Для тих, хто слідкує за безпекою Web3 і розвитком ШІ, результати цього іспиту можуть щось прояснити — які моделі підходять для ролі “лікаря з профілактики” у смарт-контрактах. Результати за перший квартал, ймовірно, з’являться дуже скоро.
Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
13 лайків
Нагородити
13
10
Репост
Поділіться
Прокоментувати
0/400
GasDevourer
· 01-08 04:15
Глибоке дослідження цього разу справді набрало обертів, чи зможе V3.2 перевершити GPT-5.2?
DeepSeek знову збирається порушити рівновагу, і це саме той ритм, який мені подобається.
Що стосується аудиту контрактів, вітчизняні моделі справді не можна недооцінювати, це досить цікаво.
Всі сім протестів, подивимося, хто витримає найкраще, здається, буде дуже кровопролитно.
Якщо цього разу DeepSeek переможе у тестуванні, OpenAI буде дуже незручно.
LISABench цього разу справді грає серйозно, чекаємо на провальні сцени.
Можливість піднятися вітчизняним моделям нарешті настала, потрібно стежити.
Переглянути оригіналвідповісти на0
BakedCatFanboy
· 01-07 20:18
DeepSeek цього разу чи зможе повернутися, здається, його занадто сильно нахвалювали
Переглянути оригіналвідповісти на0
NftRegretMachine
· 01-07 11:05
Знову змагання моделей ШІ, чи цього разу справді можна визначити, хто надійний?
Чи зможе DeepSeek цього разу повернутися?
Вітчизняні моделі ще мають потенціал, але не зовсім зрозуміло, як вони працюють на практиці
Після появи результатів все стане ясно, тестів вже було багато
Щодо перевірки смарт-контрактів, все ж таки потрібно дивитись на реальні безпекові записи
Чи зможе GLM перевершити Claude, я ставлю п’ять доларів, що ні
Чесно кажучи, більшість великих моделей хваляться, але справді корисних небагато
З цих семи моделей дві я навіть не чув, чи дійсно прогресував Web3?
Переглянути оригіналвідповісти на0
WenMoon42
· 01-07 08:34
Чи зможе DeepSeek цього разу перемогти, здається, що останнім часом внутрішні моделі набирають обертів
Переглянути оригіналвідповісти на0
ChainSpy
· 01-05 04:50
DeepSeek цього разу зможе зломити GPT, відчувається, що за останні два роки внутрішні моделі справді піднялися.
Переглянути оригіналвідповісти на0
MetaMaximalist
· 01-05 04:50
ngl це саме той стандарт сталості протоколу, який нам потрібен вже багато років... але давайте будемо чесними, більшість з цих моделей ймовірно матимуть труднощі з нюансованими векторами атак, які розуміють лише ранні користувачі
Переглянути оригіналвідповісти на0
UncleWhale
· 01-05 04:34
DeepSeek знову влаштовує шоу, чи цього разу справді вдасться?
---
Виявлення вразливостей у смарт-контрактах? По суті, все залежить від того, чия модель розумніша. Чи зможе DeepSeek повернутися у гру, ха-ха?
---
Сім великих моделей змагаються між собою, я просто хочу побачити, хто з них нарешті буде викритий з проблемами...
---
Зачекайте, чи внутрішні моделі також можуть змагатися з GPT5? Таймлайн трохи швидкий, а?
---
Ще одна гонка озброєнь, і виграють у кінцевому підсумку ті команди, що дійсно займаються безпекою
---
Запит — це найнадійніше, DeepSeek — найстабільніший, інші — просто підтримка
---
Безпека Web3 — це не тільки AI, потрібен ще й людський огляд, щоб бути надійним
---
Скільки ще чекати на результати цієї оцінки... Чи можна швидше? Це вже нестерпно!
Переглянути оригіналвідповісти на0
bridge_anxiety
· 01-05 04:26
deepseek цього разу чи зможе зробити щось цікаве
Переглянути оригіналвідповісти на0
MetaverseMortgage
· 01-05 04:25
DeepSeek знову тут, цього разу подивимося, чи зможе він справді вирішити проблему вразливостей контрактів
Цей склад дійсно виглядає досить серйозно, але як він працює на практиці, ще потрібно дивитися на дані
Нарешті хтось наважився провести справжнє навантажувальне тестування цих моделей, чекаємо на результати
Чесно кажучи, у сфері безпеки Web3 ці AI-моделі ще не зовсім надійні, будемо чекати на сміх
Гратися KIMI і Claude разом має бути цікаво, ставлю п’ять доларів, що Claude зламається
Ой... сім моделей одночасно, здається, це справжня бійка, трохи хаосу
Безпека контрактів — цього недостатньо лише з AI-детекцією, потрібен людський аудит як підстраховка
Вітчизняні моделі нарешті можуть змагатися у цьому сегменті, дуже чекаю
Справді? Вже вийшов GPT-5.2? Я про нього не чув
LISABench зробила гарний маркетинг, популярність гарантована
Битва моделей ШІ: хто зможе виграти у боротьбі за безпеку смарт-контрактів Web3?
【Біржовий світ】2026 настав, і у сфері безпеки ШІ також настає великий іспит — LISABench оголосив про запуск важливого оцінювання за перший квартал. Це не тренування, а справжнє випробування, щоб визначити, які моделі ШІ найкраще справляються з виявленням вразливостей у смарт-контрактах Web3.
Подивіться на цей список учасників — це просто “збірна мрії” у глобальній сфері ШІ: KIMI K2, DeepSeek V3.2, QWen 3, GLM 4.6, GPT-5.2, Gemini-3-pro-preview, Claude 4.5 — сім провідних передових моделей змагаються між собою. Від внутрішніх гравців, таких як Moonshot, DeepSeek, Alibaba, Zhipu, до закордонних — OpenAI, Google, Anthropic, — цей іспит охоплює неймовірно широкий спектр.
Найцікавіше — LISABench також запустив інтерактивність із спільнотою. Відкрито голосування за прогнозами, користувачі можуть заздалегідь зробити ставки на переможця. Також відкритий код стандартів оцінювання, щоб розробники могли самостійно перевіряти результати, — така прозорість у галузі справді заслуговує на увагу.
Для тих, хто слідкує за безпекою Web3 і розвитком ШІ, результати цього іспиту можуть щось прояснити — які моделі підходять для ролі “лікаря з профілактики” у смарт-контрактах. Результати за перший квартал, ймовірно, з’являться дуже скоро.