OpenAI 于 4/23 正式发布 GPT-5.5,定位为面向代理式(agentic)工作与企业知识处理的主力模型,同步登上 ChatGPT 与 Codex。官方宣传定调为“我们最聪明、最直觉易用的模型”,AA Intelligence Index 以 60 分登顶,领先 Claude Opus 4.7 与 Gemini 3.1 Pro Preview 各 3 分。
关键数据一览
指标 GPT-5.5 对照(GPT-5.4 或同级竞品) AA Intelligence Index 60 Claude Opus 4.7:57;Gemini 3.1 Pro Preview:57 Terminal-Bench 2.0(命令行工作流) 82.7% GPT-5.4:75.1% Expert-SWE(OpenAI 内部程式评估) 73.1% GPT-5.4:68.5% 脉络视窗 1,200 万 tokens 大幅提升,可处理整个企业程式库或数小时影片 价格(每百万 token) 输入 5 美元、输出 30 美元 GPT-5.4 的 2 倍单价;但输出 token 使用量降约 40%,净成本上升约 20%
定位:为“Agent 时代”设计
OpenAI 将 GPT-5.5 描述为代理式运算的基础模型,能理解复杂目标、使用工具、自我检查工作成果,并能把多步任务跑到完成而无需人类在每一步介入。根据 TechCrunch 采访,总裁 Greg Brockman 形容此版本是“迈向未来运算的一大步,但只是一步”,并强调它“相较 5.4 是更快、更锐利的推理者,使用的 token 更少”。
首席科学家 Jakub Pachocki 指出,“我们在短期内看到非常显著的提升”;研究长 Mark Chen 则强调本次版本在“科学与技术研究工作流上带来有意义的突破”。
供应用范围与版本分层
GPT-5.5:Plus、Pro、Business、Enterprise 用户在 ChatGPT 与 Codex 中可使用
GPT-5.5 Pro:Pro、Business、Enterprise 用户在 ChatGPT 中可使用的更高阶推理版本
Codex 整合:同步可用于 OpenAI 的程式代理工具,强化多文件编辑、命令行与测试迴圈
资安与国防论述同步升高
技术团队成员 Mia Glaese 在接受 TechCrunch 访问时表示,GPT-5.5 的资安能力将对 OpenAI“部署模型投入数位防御的方式产生重大影响”。这个论述与 Anthropic 近期围绕 Claude Mythos 武器级资安模型的争议形成直接对照——Altman 先前才于《Core Memory》节目批评 Anthropic 的“恐惧行销”策略。OpenAI 在 GPT-5.5 上更强调“攻守兼备、可部署”的论述,意在与 Anthropic 限制存取的立场拉开差异。
价格策略变化
GPT-5.5 的每百万 token 价格翻倍至输入 5 美元、输出 30 美元,这是 GPT-5 系列首次出现单价显著上升的世代。OpenAI 的解释是:模型在推理效率上可减少 40% 左右的输出 token 使用,因此典型任务的实际账单约比 GPT-5.4 高 20%,而非单纯 2 倍。对企业来说,决策因此从“单价是否划算”转向“在同一 prompt 下,GPT-5.5 能否在 Token 总量更少的情况下完成更复杂任务”。
对产业的讯号
GPT-5.5 把 OpenAI 在 Terminal-Bench 与内部 SWE 评估的差距拉大,这两个基准分别测试命令行代理执行与实际软件工程任务——对 Codex 与 Claude Code 的正面对抗而言,是更直接的分数战场。加上同步开放 1,200 万 tokens 脉络视窗,OpenAI 对“企业知识库全量处理”与“长任务代理”两条赛道同时加压。对 Anthropic 而言,Claude Opus 4.7 在 AA 指数以 57 分落后 3 分,对 Claude Code 用户而言也多一个理由观察下一世代(Opus 4.8 或新一代 Claude)的进度。
这篇文章 OpenAI 推 GPT-5.5:12M 脉络、AA 指数登顶、Terminal-Bench 82.7% 改写代理基准 最早出现在 链新闻 ABMedia。
相关文章