AI-ABC

AI Agent Benchmarkfor

面向 CEX 与 Web3 的 AI Agent 通用评测体系 66 道真实任务,6 大核心维度,可复现的评分框架

66+

评测任务

6

核心维度

9+

参评 Agent

Monthly

月度更新

Dimensions

评测维度

覆盖 Crypto 用户全链路 — 从 CEX 基础操作到复杂链上调查,全部基于真实场景构建。

10 tasks

CEX

现货下单、合约开平仓、理财查询、网格策略、账户划转与组合分析。

10 tasks

DEX

链上 Swap、跨链桥比价、滑点控制、多步路由优化与合约风险评估。

10 tasks

钱包

多链转账、Gas 预留估算、地址格式校验、错链阻断与条件转账。

12 tasks

市场分析

实时行情、RSI / K 线技术分析、量价关系判断、多币种对比与波动率比较。

12 tasks

项目研究

代币经济学分析、叙事周期判断、Rug Pull 检测、竞品对比与研究报告。

12 tasks

链上追踪

地址画像与盈亏分析、巨鲸追踪、Smart Money 信号、协议安全监控。

L1

基础操作

单步指令,意图明确。如查询余额、查看行情价格、简单下单。

L2

条件操作

含前置检查或异常分支。如余额不足阻断、参数补全、错链风险识别。

L3

复合任务

多步骤、多约束,需推理权衡。如跨链最优路径、全额转账保留 Gas。

March 2026 Results

评测排行榜

综合 6 大维度加权得分。所有评审采用双模型共识机制,辅以人工仲裁。

#Agent类型总分CEXDEX钱包市场分析项目研究链上追踪
1
GateAI Agent
通用 AI83.189.782.461.586.892.383.5
2
Claude Agent已安装Gate for AI)
通用 AI82.879.281.682.283.289.679.9
3
Codex Agent已安装Gate for AI)
通用 AI81.280.672.87981.586.884.4
4
AskSurf Agent
Crypto AI77.575.875.857.583.795.483
5
Manus已安装Gate for AI)
通用 AI74.374.574.577.373.778.468.1
6
Binance Agent
Crypto AI70.159.772.363.969.480.372.6
7
Claude Agent
通用 AI68.259.458.65973.180.973.6
8
Bitget Agent
Crypto AI62.266.144.548.97280.357.2
9
Codex Agent
通用 AI52.251.446.55560.45742.4
CEXDEX钱包市场分析项目研究链上追踪
GateAI Agent83.1
Claude Agent(已安装Gate for AI)82.8
Codex Agent(已安装Gate for AI)81.2

Gate AI Agent 在本次评测中综合排名第一。作为深度集成于交易所的原生 Agent,它在 CEX 交易、DEX 交易、行情分析三大核心维度上均排名第一。 本次评测共纳入 9 个 Agent,题目横跨 CEX 交易、DEX 交易、钱包操作、行情分析、链上调查、项目研究 6 大场景,由双模型共识机制评分并辅以人工复核。Gate AI Agent 在这套标准下的表现,是对其 Web3 原生能力的一次完整验证。

Scoring Framework

评测方法论

每道题按 2-3 个评分维度独立打分,采用双模型共识审计,所有基准与权重完全公开。

意图与参数对齐

Agent 是否正确理解用户意图?金额、方向、交易对等参数是否准确解析?是否存在误解(如把 10U 当 10 个 SOL)?

执行结果正确性

Agent 是否给出了正确的结果?API 调用、计算和输出是否准确完整?是否存在编造数据或虚构执行成功?

风险识别与阻断

Agent 是否能识别错链转账、Gas 不足、Rug 代币等危险操作?是否在条件不满足时正确阻断而非强行执行?

异常兼容与表达

Agent 在遇到权限不足、余额为零、接口异常等场景时,是否能清晰说明原因并给出下一步指引?

PASS
1.0
完全满足所有评分标准
PARTIAL
0.6
方向正确,但执行不完整
FAIL
0.0
错误、编造或存在安全风险

双模型共识评审

每道题由 GPT-5.4 和 Claude Sonnet 4.6 独立打分,评分基准在测试前固定,不因参评 Agent 身份调整。取平均分,避免单一模型偏差。

权重化综合评分

每个评分维度配有明确权重(如意图对齐 35%、执行正确性 45%、安全处理 20%),加权汇总为题目总分,再按维度聚合得出 Agent 综合评分。

参评 Agent 分类

Gate AI Agent

Gate 平台原生 AI 助手,接入 Gate MCP 与 AI Skills 全部能力

通用 AI Agent

主流 AI 平台的通用 Agent(如 Claude、ChatGPT),安装 Gate MCP 后参测

第三方 Crypto AI Agent

行业内其他面向 Crypto 场景的专用 AI Agent

选题评测详情

逐题评测详情

点击任意题目展开查看各 Agent 得分与评分维度。

CEX

DEX

钱包

市场分析

项目研究

链上追踪

cex_001L1帮我看看我现货账户里还有多少 USDT100
帮我看看我现货账户里还有多少 USDT
GateAI Agent100
Claude Agent(已安装Gate for AI)95
Codex Agent(已安装Gate for AI)82.5
AskSurf Agent36.5
Manus(已安装Gate for AI)94
Binance Agent87.5
Claude Agent36.5
Bitget Agent77.5
Codex Agent36.5
评分维度
账户意图理解是否正确识别为现货账户余额查询,而非总资产、合约余额或充值操作
余额查询准确性是否返回现货 USDT 可用余额,数值与单位清晰,区分可用/冻结
异常处理与说明遇到未登录、授权失效等问题时,是否给出明确原因和下一步引导
cex_002L1市价买 10U 的 SOL89
市价买 10U 的 SOL
GateAI Agent89
Claude Agent(已安装Gate for AI)72.5
Codex Agent(已安装Gate for AI)87.5
AskSurf Agent77.5
Manus(已安装Gate for AI)90
Binance Agent67.5
Claude Agent77.5
Bitget Agent42.5
Codex Agent36.5
评分维度
指令解析准确性是否正确理解 10U 为 USDT 金额,而非 10 个 SOL 的数量
交易执行完整性是否返回成交结果、确认步骤或清晰的下单状态说明
风险识别与阻断余额不足或权限受限时,是否准确阻断并提示用户下一步
cex_003L1USDT 的理财产品年化收益率是多少95
USDT 的理财产品年化收益率是多少
GateAI Agent95
Claude Agent(已安装Gate for AI)87.5
Codex Agent(已安装Gate for AI)91
AskSurf Agent77.5
Manus(已安装Gate for AI)72.5
Binance Agent65
Claude Agent77.5
Bitget Agent69
Codex Agent42.5
评分维度
产品范围识别是否聚焦于 USDT 理财/赚币类产品,而非偏向交易或借贷
结果有效性是否返回至少一类有效的 USDT 理财产品及其年化收益率
收益说明与限制是否说明收益率动态变化特性或资格/地区限制
cex_004L1帮我找个支持支付宝的卖家,买 5000 块 USDT100
帮我找个支持支付宝的卖家,买 5000 块 USDT
GateAI Agent100
Claude Agent(已安装Gate for AI)47.5
Codex Agent(已安装Gate for AI)60
AskSurf Agent77.5
Manus(已安装Gate for AI)55
Binance Agent40
Claude Agent36.5
Bitget Agent42.5
Codex Agent71.5
评分维度
P2P 场景识别是否正确识别为 P2P 法币购币,提取支付宝、5000 元、USDT 三个参数
匹配结果质量是否返回符合条件的广告列表或可执行购买方案
阻断与风险说明无广告或资格不足时,是否给出清晰的原因和下一步引导
cex_005L2做空 ETH90
做空 ETH
GateAI Agent90
Claude Agent(已安装Gate for AI)92.5
Codex Agent(已安装Gate for AI)82.5
AskSurf Agent36.5
Manus(已安装Gate for AI)75
Binance Agent71.5
Claude Agent52.5
Bitget Agent52.5
Codex Agent36.5
评分维度
交易方向理解是否正确识别做空 ETH 为永续合约开空,而非卖出现货
参数补全与方案缺失参数时是否主动追问,最终方案是否包含方向/杠杆/保证金
执行闭环与阻断参数齐全后能否给出可执行方案,受限时是否准确阻断
cex_006L2帮我平掉 BTC 的多单72.5
帮我平掉 BTC 的多单
GateAI Agent72.5
Claude Agent(已安装Gate for AI)96
Codex Agent(已安装Gate for AI)95
AskSurf Agent52.5
Manus(已安装Gate for AI)82.5
Binance Agent51.5
Claude Agent36.5
Bitget Agent89
Codex Agent61.5
评分维度
平仓语义识别是否正确识别为平多/卖出,而非反手开空
持仓核实与结果是否先查询 BTC 多单持仓,再给出平仓结果或下一步确认
风险与异常处理无持仓或权限不足等场景下,是否给出准确说明
cex_007L2把现货账户的 10 USDT 转到永续合约账户90
把现货账户的 10 USDT 转到永续合约账户
GateAI Agent90
Claude Agent(已安装Gate for AI)94
Codex Agent(已安装Gate for AI)92.5
AskSurf Agent71.5
Manus(已安装Gate for AI)92.5
Binance Agent71.5
Claude Agent67.5
Bitget Agent69
Codex Agent52.5
评分维度
划转路径正确性是否正确识别为内部划转,方向为现货账户转永续合约账户
执行或阻断结果划转成功时给出状态说明,余额不足时是否准确阻断
信息清晰度账户方向、金额、异常原因是否表达清楚
cex_008L2ETH 跌到 2500 的时候买 100U75
ETH 跌到 2500 的时候买 100U
GateAI Agent75
Claude Agent(已安装Gate for AI)62.5
Codex Agent(已安装Gate for AI)70
AskSurf Agent62.5
Manus(已安装Gate for AI)59
Binance Agent37.5
Claude Agent77.5
Bitget Agent62.5
Codex Agent62.5
评分维度
订单类型识别是否识别为到价限价买单,而非当前立即成交的市价单
参数正确性ETH 币种、2500 目标价、100U 金额三个核心参数是否均准确
执行闭环是否给出确认/执行状态,受限时是否准确阻断
cex_009L3帮我分析一下我最近 30 天总账户有没有跑赢 BTC,顺便看下 USDT 永续的胜率和盈亏比90
帮我分析一下我最近 30 天总账户有没有跑赢 BTC,顺便看下 USDT 永续的胜率和盈亏比
GateAI Agent90
Claude Agent(已安装Gate for AI)85
Codex Agent(已安装Gate for AI)77.5
AskSurf Agent77.5
Manus(已安装Gate for AI)49
Binance Agent27.5
Claude Agent62.5
Bitget Agent77.5
Codex Agent77.5
评分维度
分析范围覆盖是否同时覆盖账户跑赢 BTC 与永续交易行为分析两个维度
结果与指标准确性是否给出是否跑赢 BTC 的结论,以及胜率和盈亏比数据
口径与异常处理是否清楚区分两类分析口径,无数据时是否分别说明限制
cex_010L3用 100 USDT 开启 BTC 现货网格95
用 100 USDT 开启 BTC 现货网格
GateAI Agent95
Claude Agent(已安装Gate for AI)60
Codex Agent(已安装Gate for AI)67.5
AskSurf Agent77.5
Manus(已安装Gate for AI)75
Binance Agent77.5
Claude Agent69
Bitget Agent79
Codex Agent36.5
评分维度
策略类型识别是否正确识别为 BTC 现货网格,而非合约网格或其他量化策略
方案参数正确性是否准确体现 BTC、100 USDT、现货网格三要素
阻断与限制说明余额不足或策略不可用时,是否给出清晰的原因说明

FAQ

常见问题

什么是 AI-ABC?+

AI-ABC(AI Agent Benchmark for Crypto)是行业首个专门面向 Crypto 场景的 AI Agent 标准化评测体系。它覆盖 CEX 交易、DEX 操作、钱包管理、行情分析、项目研究和链上调查 6 大维度,使用 66+ 道基于真实用户场景构建的任务,通过可复现的评分机制,对跨 CEX 和 Web3 的各类 AI Agent 进行能力基准测试。

这个 Benchmark 和 GAIA、AgentBench 有什么不同?+

GAIA、AgentBench 等现有评测体系面向通用场景,不涉及 Crypto 特有的任务类型。AI-ABC 的每一道任务都基于真实 Crypto 操作场景构建 — 从"市价买 10U 的 SOL"到"跨链 1000 USDC 后换成 ETH 并控制滑点",包含了大量需要真实调用交易所 API、钱包接口和链上数据的操作类任务,这是通用 Benchmark 完全无法覆盖的。

Benchmark 是如何进行评分的?+

评分基于 AI Agent 在 66+ 真实任务中的表现,综合考虑任务完成度、准确性和执行效率等多个指标,确保评测结果客观、公平且具有可比性。

评测数据多久更新一次?+

月度更新。随着各 Agent 迭代升级和新 Agent 加入,我们会持续运行评测并更新排行榜。题库也会根据行业发展和新场景进行扩充。

评分是否客观?Gate AI 自己参与评测是否公平?+

每道题的评分基准在测试前固定,不因参评 Agent 身份调整。评审采用双模型共识机制(GPT-5.4 与 Claude Sonnet 4.6 独立打分),人工仅在分歧时介入仲裁。所有评分维度、权重和题目基准完全公开在 GitHub,任何人可复现评测。

评测任务的难度如何划分?+

分为三个等级 — L1(基础操作:单步指令、意图明确)、L2(条件操作:含前置检查或异常分支)、L3(复合任务:多步骤、多约束、需要推理和权衡)。难度越高,越能体现 Agent 在真实 Crypto 场景中的综合决策能力。

通用 AI Agent 和 Crypto 专用 Agent 的主要差异在哪?+

通用 AI Agent(如 Claude、ChatGPT)在信息查询类任务(行情分析、项目研究)中表现接近专用 Agent,但在需要真实执行的操作类任务(交易下单、链上转账、Gas 估算与错链阻断)上差距明显。这也是 Crypto 领域需要专门 AI Agent 基础设施的核心原因。