#	Agent	类型	总分	CEX	DEX	钱包	市场分析	项目研究	链上追踪
1	GateAI Agent	通用 AI	83.1	89.7	82.4	61.5	86.8	92.3	83.5
2	Claude Agent（已安装Gate for AI）	通用 AI	82.8	79.2	81.6	82.2	83.2	89.6	79.9
3	Codex Agent（已安装Gate for AI）	通用 AI	81.2	80.6	72.8	79	81.5	86.8	84.4
4	AskSurf Agent	Crypto AI	77.5	75.8	75.8	57.5	83.7	95.4	83
5	Manus（已安装Gate for AI）	通用 AI	74.3	74.5	74.5	77.3	73.7	78.4	68.1
6	Binance Agent	Crypto AI	70.1	59.7	72.3	63.9	69.4	80.3	72.6
7	Claude Agent	通用 AI	68.2	59.4	58.6	59	73.1	80.9	73.6
8	Bitget Agent	Crypto AI	62.2	66.1	44.5	48.9	72	80.3	57.2
9	Codex Agent	通用 AI	52.2	51.4	46.5	55	60.4	57	42.4

GateAI Agent83.1

Claude Agent（已安装Gate for AI）82.8

Codex Agent（已安装Gate for AI）81.2

Gate AI Agent 在本次评测中综合排名第一。作为深度集成于交易所的原生 Agent，它在 CEX 交易、DEX 交易、行情分析三大核心维度上均排名第一。本次评测共纳入 9 个 Agent，题目横跨 CEX 交易、DEX 交易、钱包操作、行情分析、链上调查、项目研究 6 大场景，由双模型共识机制评分并辅以人工复核。Gate AI Agent 在这套标准下的表现，是对其 Web3 原生能力的一次完整验证。

Scoring Framework

评测方法论

每道题按 2-3 个评分维度独立打分，采用双模型共识审计，所有基准与权重完全公开。

意图与参数对齐

Agent 是否正确理解用户意图？金额、方向、交易对等参数是否准确解析？是否存在误解（如把 10U 当 10 个 SOL）？

执行结果正确性

Agent 是否给出了正确的结果？API 调用、计算和输出是否准确完整？是否存在编造数据或虚构执行成功？

风险识别与阻断

Agent 是否能识别错链转账、Gas 不足、Rug 代币等危险操作？是否在条件不满足时正确阻断而非强行执行？

异常兼容与表达

Agent 在遇到权限不足、余额为零、接口异常等场景时，是否能清晰说明原因并给出下一步指引？

PASS

1.0

完全满足所有评分标准

PARTIAL

0.6

方向正确，但执行不完整

FAIL

0.0

错误、编造或存在安全风险

双模型共识评审

每道题由 GPT-5.4 和 Claude Sonnet 4.6 独立打分，评分基准在测试前固定，不因参评 Agent 身份调整。取平均分，避免单一模型偏差。

权重化综合评分

每个评分维度配有明确权重（如意图对齐 35%、执行正确性 45%、安全处理 20%），加权汇总为题目总分，再按维度聚合得出 Agent 综合评分。

参评 Agent 分类

Gate AI Agent

Gate 平台原生 AI 助手，接入 Gate MCP 与 AI Skills 全部能力

通用 AI Agent

主流 AI 平台的通用 Agent（如 Claude、ChatGPT），安装 Gate MCP 后参测

第三方 Crypto AI Agent

行业内其他面向 Crypto 场景的专用 AI Agent

查看完整题集与评分规则 →

选题评测详情

逐题评测详情

点击任意题目展开查看各 Agent 得分与评分维度。

CEX

DEX

钱包

市场分析

项目研究

链上追踪

cex_001L1帮我看看我现货账户里还有多少 USDT100▾

帮我看看我现货账户里还有多少 USDT

GateAI Agent100

Claude Agent（已安装Gate for AI）95

Codex Agent（已安装Gate for AI）82.5

AskSurf Agent36.5

Manus（已安装Gate for AI）94

Binance Agent87.5

Claude Agent36.5

Bitget Agent77.5

Codex Agent36.5

评分维度

账户意图理解是否正确识别为现货账户余额查询，而非总资产、合约余额或充值操作

余额查询准确性是否返回现货 USDT 可用余额，数值与单位清晰，区分可用/冻结

异常处理与说明遇到未登录、授权失效等问题时，是否给出明确原因和下一步引导

cex_002L1市价买 10U 的 SOL89▾

市价买 10U 的 SOL

GateAI Agent89

Claude Agent（已安装Gate for AI）72.5

Codex Agent（已安装Gate for AI）87.5

AskSurf Agent77.5

Manus（已安装Gate for AI）90

Binance Agent67.5

Claude Agent77.5

Bitget Agent42.5

Codex Agent36.5

评分维度

指令解析准确性是否正确理解 10U 为 USDT 金额，而非 10 个 SOL 的数量

交易执行完整性是否返回成交结果、确认步骤或清晰的下单状态说明

风险识别与阻断余额不足或权限受限时，是否准确阻断并提示用户下一步

cex_003L1USDT 的理财产品年化收益率是多少95▾

USDT 的理财产品年化收益率是多少

GateAI Agent95

Claude Agent（已安装Gate for AI）87.5

Codex Agent（已安装Gate for AI）91

AskSurf Agent77.5

Manus（已安装Gate for AI）72.5

Binance Agent65

Claude Agent77.5

Bitget Agent69

Codex Agent42.5

评分维度

产品范围识别是否聚焦于 USDT 理财/赚币类产品，而非偏向交易或借贷

结果有效性是否返回至少一类有效的 USDT 理财产品及其年化收益率

收益说明与限制是否说明收益率动态变化特性或资格/地区限制

cex_004L1帮我找个支持支付宝的卖家，买 5000 块 USDT100▾

帮我找个支持支付宝的卖家，买 5000 块 USDT

GateAI Agent100

Claude Agent（已安装Gate for AI）47.5

Codex Agent（已安装Gate for AI）60

AskSurf Agent77.5

Manus（已安装Gate for AI）55

Binance Agent40

Claude Agent36.5

Bitget Agent42.5

Codex Agent71.5

评分维度

P2P 场景识别是否正确识别为 P2P 法币购币，提取支付宝、5000 元、USDT 三个参数

匹配结果质量是否返回符合条件的广告列表或可执行购买方案

阻断与风险说明无广告或资格不足时，是否给出清晰的原因和下一步引导

cex_005L2做空 ETH90▾

做空 ETH

GateAI Agent90

Claude Agent（已安装Gate for AI）92.5

Codex Agent（已安装Gate for AI）82.5

AskSurf Agent36.5

Manus（已安装Gate for AI）75

Binance Agent71.5

Claude Agent52.5

Bitget Agent52.5

Codex Agent36.5

评分维度

交易方向理解是否正确识别做空 ETH 为永续合约开空，而非卖出现货

参数补全与方案缺失参数时是否主动追问，最终方案是否包含方向/杠杆/保证金

执行闭环与阻断参数齐全后能否给出可执行方案，受限时是否准确阻断

cex_006L2帮我平掉 BTC 的多单72.5▾

帮我平掉 BTC 的多单

GateAI Agent72.5

Claude Agent（已安装Gate for AI）96

Codex Agent（已安装Gate for AI）95

AskSurf Agent52.5

Manus（已安装Gate for AI）82.5

Binance Agent51.5

Claude Agent36.5

Bitget Agent89

Codex Agent61.5

评分维度

平仓语义识别是否正确识别为平多/卖出，而非反手开空

持仓核实与结果是否先查询 BTC 多单持仓，再给出平仓结果或下一步确认

风险与异常处理无持仓或权限不足等场景下，是否给出准确说明

cex_007L2把现货账户的 10 USDT 转到永续合约账户90▾

把现货账户的 10 USDT 转到永续合约账户

GateAI Agent90

Claude Agent（已安装Gate for AI）94

Codex Agent（已安装Gate for AI）92.5

AskSurf Agent71.5

Manus（已安装Gate for AI）92.5

Binance Agent71.5

Claude Agent67.5

Bitget Agent69

Codex Agent52.5

评分维度

划转路径正确性是否正确识别为内部划转，方向为现货账户转永续合约账户

执行或阻断结果划转成功时给出状态说明，余额不足时是否准确阻断

信息清晰度账户方向、金额、异常原因是否表达清楚

cex_008L2ETH 跌到 2500 的时候买 100U75▾

ETH 跌到 2500 的时候买 100U

GateAI Agent75

Claude Agent（已安装Gate for AI）62.5

Codex Agent（已安装Gate for AI）70

AskSurf Agent62.5

Manus（已安装Gate for AI）59

Binance Agent37.5

Claude Agent77.5

Bitget Agent62.5

Codex Agent62.5

评分维度

订单类型识别是否识别为到价限价买单，而非当前立即成交的市价单

参数正确性ETH 币种、2500 目标价、100U 金额三个核心参数是否均准确

执行闭环是否给出确认/执行状态，受限时是否准确阻断

cex_009L3帮我分析一下我最近 30 天总账户有没有跑赢 BTC，顺便看下 USDT 永续的胜率和盈亏比90▾

帮我分析一下我最近 30 天总账户有没有跑赢 BTC，顺便看下 USDT 永续的胜率和盈亏比

GateAI Agent90

Claude Agent（已安装Gate for AI）85

Codex Agent（已安装Gate for AI）77.5

AskSurf Agent77.5

Manus（已安装Gate for AI）49

Binance Agent27.5

Claude Agent62.5

Bitget Agent77.5

Codex Agent77.5

评分维度

分析范围覆盖是否同时覆盖账户跑赢 BTC 与永续交易行为分析两个维度

结果与指标准确性是否给出是否跑赢 BTC 的结论，以及胜率和盈亏比数据

口径与异常处理是否清楚区分两类分析口径，无数据时是否分别说明限制

cex_010L3用 100 USDT 开启 BTC 现货网格95▾

用 100 USDT 开启 BTC 现货网格

GateAI Agent95

Claude Agent（已安装Gate for AI）60

Codex Agent（已安装Gate for AI）67.5

AskSurf Agent77.5

Manus（已安装Gate for AI）75

Binance Agent77.5

Claude Agent69

Bitget Agent79

Codex Agent36.5

评分维度

策略类型识别是否正确识别为 BTC 现货网格，而非合约网格或其他量化策略

方案参数正确性是否准确体现 BTC、100 USDT、现货网格三要素

阻断与限制说明余额不足或策略不可用时，是否给出清晰的原因说明

FAQ

常见问题

什么是 AI-ABC？+

AI-ABC（AI Agent Benchmark for Crypto）是行业首个专门面向 Crypto 场景的 AI Agent 标准化评测体系。它覆盖 CEX 交易、DEX 操作、钱包管理、行情分析、项目研究和链上调查 6 大维度，使用 66+ 道基于真实用户场景构建的任务，通过可复现的评分机制，对跨 CEX 和 Web3 的各类 AI Agent 进行能力基准测试。

这个 Benchmark 和 GAIA、AgentBench 有什么不同？+

GAIA、AgentBench 等现有评测体系面向通用场景，不涉及 Crypto 特有的任务类型。AI-ABC 的每一道任务都基于真实 Crypto 操作场景构建 — 从"市价买 10U 的 SOL"到"跨链 1000 USDC 后换成 ETH 并控制滑点"，包含了大量需要真实调用交易所 API、钱包接口和链上数据的操作类任务，这是通用 Benchmark 完全无法覆盖的。

Benchmark 是如何进行评分的？+

评分基于 AI Agent 在 66+ 真实任务中的表现，综合考虑任务完成度、准确性和执行效率等多个指标，确保评测结果客观、公平且具有可比性。

评测数据多久更新一次？+

月度更新。随着各 Agent 迭代升级和新 Agent 加入，我们会持续运行评测并更新排行榜。题库也会根据行业发展和新场景进行扩充。

评分是否客观？Gate AI 自己参与评测是否公平？+

每道题的评分基准在测试前固定，不因参评 Agent 身份调整。评审采用双模型共识机制（GPT-5.4 与 Claude Sonnet 4.6 独立打分），人工仅在分歧时介入仲裁。所有评分维度、权重和题目基准完全公开在 GitHub，任何人可复现评测。

评测任务的难度如何划分？+

分为三个等级 — L1（基础操作：单步指令、意图明确）、L2（条件操作：含前置检查或异常分支）、L3（复合任务：多步骤、多约束、需要推理和权衡）。难度越高，越能体现 Agent 在真实 Crypto 场景中的综合决策能力。

通用 AI Agent 和 Crypto 专用 Agent 的主要差异在哪？+

通用 AI Agent（如 Claude、ChatGPT）在信息查询类任务（行情分析、项目研究）中表现接近专用 Agent，但在需要真实执行的操作类任务（交易下单、链上转账、Gas 估算与错链阻断）上差距明显。这也是 Crypto 领域需要专门 AI Agent 基础设施的核心原因。