
区块链安全审计公司 OpenZeppelin 对 OpenAI 与 Paradigm 合作推出的智能合约安全 AI 基准测试 EVMbench 进行了独立审计,并发现两大严重问题:训练资料污染以及至少 4 个被标记为「高危漏洞」的分类实际上属于无效伪造。
EVMbench 于 2026 年 2 月中旬发布,旨在评估不同 AI 模型识别、修复和利用智能合约漏洞的能力,测试期间 AI 代理的网络访问权限被切断,防止其从网络搜索答案。然而,OpenZeppelin 的审计揭示了一个结构性漏洞:该基准测试是基于 2024 年至 2025 年年中期间开展的 120 次审计中筛选的漏洞,而多数顶尖 AI 模型的知识训练截止日期同样设定在 2025 年年中。
这意味着,AI 代理很可能在预训练期间已接触过 EVMbench 的漏洞报告,其记忆中可能已存储了所有问题的答案。OpenZeppelin 表示:「AI 安全最重要的能力是发现模型以前从未见过的程序码中的新漏洞。」资料集规模有限进一步放大了污染对整体评估的影响。
训练资料污染:AI 代理的预训练可能已包含 EVMbench 的漏洞报告,使「零知识发现」测试失去意义
无效高危漏洞分类:至少 4 个被标记为高危的漏洞实际上无法被利用
评分系统缺陷:EVMbench 此前对 AI 发现这些伪漏洞的行为给予积分,评分基础存在问题
资料集规模有限:进一步放大了污染对整体评估结果的影响
当前排行榜:Anthropic 的 Claude 4.6 领先,OpenAI 的 OC-GPT-5.2 和 Google 的 Gemini 3 Pro 紧随其后
除资料污染外,OpenZeppelin 还发现了更具体的事实错误。他们评估了至少 4 个被 EVMbench 归类为高危的漏洞,发现这些漏洞实际上不存在——更关键的是,其描述的漏洞利用方式根本无法奏效。
「这些并非主观上的严重性分歧;而是发现所描述的漏洞利用方式并未奏效,」OpenZeppelin 指出。若 AI 代理在测试中「发现」了这些伪漏洞,意味着评分系统在奖励错误的结果。
OpenZeppelin 强调,这次审计并非否定 AI 在区块链安全中的潜力:「问题不在于 AI 是否会改变智能合约的安全性——它肯定会。问题在于,我们用来建构和评估这些工具的资料和基准,是否与它们旨在保护的合约遵循相同的标准。」
OpenZeppelin 发现两大核心问题:一是训练资料污染,EVMbench 的测试漏洞来自 2024 至 2025 年中的审计报告,与 AI 模型训练截止日期重叠,这些模型可能在预训练中已「见过」答案;二是至少 4 个高危漏洞分类属于无效伪造,其描述的攻击方式实际上无法执行。
如果 AI 模型在预训练中已接触过基准测试的漏洞报告,它可能通过记忆体「回答」问题,而非真正的漏洞发现能力。这使整个评测失去「零知识测试」的意义,无法真实反映 AI 面对全新未知智能合约时的实际安全审计能力。
OpenZeppelin 明确表示,AI 将对智能合约安全产生重大影响,但强调这种影响必须建立在可信的方法论和准确评测基础之上。他们认为 EVMbench 的问题不是否定 AI 的信号,而是对行业标准的一次重要警示。
相关文章