让 GPT Image 2.0 创建了一张 opus 4.7 对比 gpt 5.5 的基准表。


那个图像模型变得非常厉害。
GPT-5.5 赢得了头条计分牌。但仔细看。
OSWorld 78.7 对 78.0。GDPval 84.9 对 80.3。Toolathlon 55.6 对 54.6 ( over 5.4, not Opus )。
Opus 仍然拿下 SWE-Bench Pro、MCP Atlas、GPQA Diamond、HLE(无工具)。
OpenAI 得到全能腰带。Anthropic 保持代码王冠。纸面上如此。
查看原文
post-image
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论