OpenAI 推 GPT-5.5:12M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準

鏈新聞abmedia

OpenAI 于 4/23 正式发布 GPT-5.5,定位为面向代理式(agentic)工作与企业知识处理的主力模型,同步登上 ChatGPT 与 Codex。官方宣传定调为“我们最聪明、最直觉易用的模型”,AA Intelligence Index 以 60 分登顶,领先 Claude Opus 4.7 与 Gemini 3.1 Pro Preview 各 3 分。

关键数据一览

指标 GPT-5.5 对照(GPT-5.4 或同级竞品) AA Intelligence Index 60 Claude Opus 4.7:57;Gemini 3.1 Pro Preview:57 Terminal-Bench 2.0(命令行工作流) 82.7% GPT-5.4:75.1% Expert-SWE(OpenAI 内部程式评估) 73.1% GPT-5.4:68.5% 脉络视窗 1,200 万 tokens 大幅提升,可处理整个企业程式库或数小时影片 价格(每百万 token) 输入 5 美元、输出 30 美元 GPT-5.4 的 2 倍单价;但输出 token 使用量降约 40%,净成本上升约 20%

定位:为“Agent 时代”设计

OpenAI 将 GPT-5.5 描述为代理式运算的基础模型,能理解复杂目标、使用工具、自我检查工作成果,并能把多步任务跑到完成而无需人类在每一步介入。根据 TechCrunch 采访,总裁 Greg Brockman 形容此版本是“迈向未来运算的一大步,但只是一步”,并强调它“相较 5.4 是更快、更锐利的推理者,使用的 token 更少”。

首席科学家 Jakub Pachocki 指出,“我们在短期内看到非常显著的提升”;研究长 Mark Chen 则强调本次版本在“科学与技术研究工作流上带来有意义的突破”。

供应用范围与版本分层

GPT-5.5:Plus、Pro、Business、Enterprise 用户在 ChatGPT 与 Codex 中可使用

GPT-5.5 Pro:Pro、Business、Enterprise 用户在 ChatGPT 中可使用的更高阶推理版本

Codex 整合:同步可用于 OpenAI 的程式代理工具,强化多文件编辑、命令行与测试迴圈

资安与国防论述同步升高

技术团队成员 Mia Glaese 在接受 TechCrunch 访问时表示,GPT-5.5 的资安能力将对 OpenAI“部署模型投入数位防御的方式产生重大影响”。这个论述与 Anthropic 近期围绕 Claude Mythos 武器级资安模型的争议形成直接对照——Altman 先前才于《Core Memory》节目批评 Anthropic 的“恐惧行销”策略。OpenAI 在 GPT-5.5 上更强调“攻守兼备、可部署”的论述,意在与 Anthropic 限制存取的立场拉开差异。

价格策略变化

GPT-5.5 的每百万 token 价格翻倍至输入 5 美元、输出 30 美元,这是 GPT-5 系列首次出现单价显著上升的世代。OpenAI 的解释是:模型在推理效率上可减少 40% 左右的输出 token 使用,因此典型任务的实际账单约比 GPT-5.4 高 20%,而非单纯 2 倍。对企业来说,决策因此从“单价是否划算”转向“在同一 prompt 下,GPT-5.5 能否在 Token 总量更少的情况下完成更复杂任务”。

对产业的讯号

GPT-5.5 把 OpenAI 在 Terminal-Bench 与内部 SWE 评估的差距拉大,这两个基准分别测试命令行代理执行与实际软件工程任务——对 Codex 与 Claude Code 的正面对抗而言,是更直接的分数战场。加上同步开放 1,200 万 tokens 脉络视窗,OpenAI 对“企业知识库全量处理”与“长任务代理”两条赛道同时加压。对 Anthropic 而言,Claude Opus 4.7 在 AA 指数以 57 分落后 3 分,对 Claude Code 用户而言也多一个理由观察下一世代(Opus 4.8 或新一代 Claude)的进度。

这篇文章 OpenAI 推 GPT-5.5:12M 脉络、AA 指数登顶、Terminal-Bench 82.7% 改写代理基准 最早出现在 链新闻 ABMedia。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

阿联酋宣布在未来两年内转向 AI 政府模式

谢赫·穆罕默德·本·拉希德·阿勒马克图姆殿下表示,目标是让50%的政府部门通过自治的代理式AI运作。转型还将包括培训联邦雇员以“精通AI”,并将由谢赫·曼苏尔·本·扎耶德监督。 要点:

Coinpedia1小时前

AI 交易平台 Fere AI 融资 130 万美元,融资由 Ethereal Ventures 牵头

Gate News 消息,4 月 25 日——据 Globenewswire 报道,由 Ethereal Ventures 牵头、Galaxy Vision Hill 和 Kosmos Ventures 参与的 130 万美元融资轮已完成,Fere AI(一个由人工智能驱动的数字资产交易平台)宣布了该消息。 该平台支持跨链

GateNews2小时前

英伟达在 Blackwell 基础设施上向全体员工部署 OpenAI Codex AI 代理

Gate News 消息,4 月 25 日——据首席执行官 Jensen Huang 和 OpenAI 首席执行官 Sam Altman 的内部沟通内容,英伟达已在一次成功试点后(约有 10,000 名员工参与),将由 GPT-5.5 驱动的 OpenAI Codex——一款 AI 代理——部署到其全体员工中。 Codex 的设计用于协助

GateNews7小时前

AI 编码初创公司 Cognition 就 $25B 估值融资轮次展开商谈

Gate 新闻消息,4月25日——据知情人士称,AI 编码初创公司 Cognition 正处于早期洽谈阶段,拟筹集数亿美元或更多资金,估值大约为 $25 十亿(billion),消息人士称。此前在 SpaceX 收购一家竞争对手的 AI 编码初创公司之后,相关兴趣有所增加。 Co

GateNews7小时前

AI 交易代理平台 Fere AI 融资 130 万美元,Ethereal Ventures 领投

Gate News 消息,4月25日——AI驱动的数字资产交易代理平台 Fere AI 宣布已完成一轮 130 万美元的融资,由 Ethereal Ventures 领投,Galaxy Vision Hill 和 Kosmos Ventures 参投。该平台支持包括以太坊在内的跨链网络,

GateNews9小时前

OpenClaw v2026.4.23 增加 gpt-image-2 直接 OAuth 支持,引入子代理的分叉上下文模式

Gate News 消息,4月25日——OpenClaw,一个开源 AI 代理框架,在 4月23日发布了 v2026.4.23,带来图像生成、子代理机制以及安全加固方面的更新。 图像生成增强使 gpt-image-2 可以直接通过 Codex OAuth 调用,无需

GateNews9小时前
评论
0/400
暂无评论