AI代理能提升以太坊的安全性吗?OpenAI和Paradigm创建了一个测试平台

ETH0.13%

简要介绍

  • EVMbench 测试 AI 代理在 120 个真实世界的以太坊智能合约漏洞上表现。
  • 工具在检测、修补和利用三个不同模式下进行评估。
  • GPT-5.3-Codex 在利用模式测试中取得了72.2%的成功率。

ChatGPT的开发者OpenAI和专注于加密的投资公司Paradigm推出了EVMbench,这是一款旨在提升以太坊虚拟机智能合约安全性的工具。
EVMbench旨在评估AI代理检测、修补和利用以太坊虚拟机(EVM)智能合约中高严重性漏洞的能力。
智能合约是以太坊网络的核心,承载着从去中心化金融协议到代币发行的所有代码。据Token Terminal数据显示,2025年11月,以太坊部署的智能合约数量达到历史最高的170万,上周仅部署了66.95万。

EVMbench借鉴了40次审计中的120个精选漏洞,主要来源于Code4rena等公开审计竞赛,OpenAI在一篇博客中介绍。它还包括Tempo的安全审计场景,Tempo是Stripe专为高吞吐、低成本稳定币支付打造的Layer-1区块链。
支付巨头Stripe在12月推出了Tempo的公共测试网,并表示该项目在Visa、Shopify和OpenAI等的建议下开发。
其目标是以经济上有意义的真实代码为基础进行测试,特别是在AI驱动的稳定币支付不断扩展的背景下。

推出EVMbench——一项衡量AI代理检测、利用和修补高严重性智能合约漏洞能力的新基准。https://t.co/op5zufgAGH

— OpenAI (@OpenAI) 2026年2月18日

EVMbench旨在通过三个模式评估AI模型:检测(Detect)、修补(Patch)和利用(Exploit)。在“检测”阶段,代理审计代码仓库,并根据其对真实漏洞的识别能力评分。在“修补”阶段,代理需在不破坏预期功能的前提下消除漏洞。最后,在“利用”阶段,代理在沙箱区块链环境中尝试端到端的资金转移攻击,评分通过确定性交易重放进行。

在利用模式中,运行OpenAI的Codex CLI的GPT-5.3-Codex取得了72.2%的分数,而六个月前发布的GPT-5仅为31.9%。在检测和修补任务中表现较弱,代理有时未能全面审计或难以保持完整的合约功能。

ChatGPT的开发者们警告称,EVMbench尚未完全反映现实世界的安全复杂性,但他们补充说,在经济相关环境中衡量AI性能至关重要,因为模型正成为攻击者和防御者的强大工具。

OpenAI的Sam Altman和以太坊联合创始人Vitalik Buterin此前在AI发展速度上存在分歧。
2025年1月,Altman表示公司“有信心按照传统理解的方式构建AGI”。但Buterin则主张AI系统应具备“软暂停”功能,以便在出现预警信号时暂时限制工业规模的AI操作。

免责声明:本页面信息可能来自第三方,仅供参考,不代表 Gate 的观点或意见,亦不构成任何财务、投资或法律建议。数字资产交易风险较高,请勿仅依赖本页面信息作出决策。具体内容详见声明
评论
0/400
暂无评论