OpenAI 推 GPT-5.5:12M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準

鏈新聞abmedia

OpenAI 於 4/23 正式發布 GPT-5.5,定位為面向代理式(agentic)工作與企業知識處理的主力模型,同步登上 ChatGPT 與 Codex。官方宣傳定調為「我們最聰明、最直覺易用的模型」,AA Intelligence Index 以 60 分登頂,領先 Claude Opus 4.7 與 Gemini 3.1 Pro Preview 各 3 分。

關鍵數據一覽

指標 GPT-5.5 對照(GPT-5.4 或同級競品) AA Intelligence Index 60 Claude Opus 4.7:57;Gemini 3.1 Pro Preview:57 Terminal-Bench 2.0(命令列工作流) 82.7% GPT-5.4:75.1% Expert-SWE(OpenAI 內部程式評估) 73.1% GPT-5.4:68.5% 脈絡視窗 1,200 萬 tokens 大幅提升,可處理整個企業程式庫或數小時影片 價格(每百萬 token) 輸入 5 美元、輸出 30 美元 GPT-5.4 的 2 倍單價;但輸出 token 使用量降約 40%,淨成本上升約 20%

定位:為「Agent 時代」設計

OpenAI 將 GPT-5.5 描述為代理式運算的基礎模型,能理解複雜目標、使用工具、自我檢查工作成果,並能把多步任務跑到完成而無需人類在每一步介入。根據 TechCrunch 採訪,總裁 Greg Brockman 形容此版本是「邁向未來運算的一大步,但只是一步」,並強調它「相較 5.4 是更快、更銳利的推理者,使用的 token 更少」。

首席科學家 Jakub Pachocki 指出,「我們在短期內看到非常顯著的提升」;研究長 Mark Chen 則強調本次版本在「科學與技術研究工作流上帶來有意義的突破」。

供應範圍與版本分層

GPT-5.5:Plus、Pro、Business、Enterprise 用戶在 ChatGPT 與 Codex 中可使用

GPT-5.5 Pro:Pro、Business、Enterprise 用戶在 ChatGPT 中可使用的更高階推理版本

Codex 整合:同步可用於 OpenAI 的程式代理工具,強化多檔案編輯、命令列與測試迴圈

資安與國防論述同步升高

技術團隊成員 Mia Glaese 在接受 TechCrunch 訪問時表示,GPT-5.5 的資安能力將對 OpenAI「部署模型投入數位防禦的方式產生重大影響」。這個論述與 Anthropic 近期圍繞 Claude Mythos 武器級資安模型的爭議形成直接對照——Altman 先前才於《Core Memory》節目批評 Anthropic 的「恐懼行銷」策略。OpenAI 在 GPT-5.5 上更強調「攻守兼備、可部署」的論述,意在與 Anthropic 限制存取的立場拉開差異。

價格策略變化

GPT-5.5 的每百萬 token 價格翻倍至輸入 5 美元、輸出 30 美元,這是 GPT-5 系列首次出現單價顯著上升的世代。OpenAI 的解釋是:模型在推理效率上可減少 40% 左右的輸出 token 使用,因此典型任務的實際帳單約比 GPT-5.4 高 20%,而非單純 2 倍。對企業來說,決策因此從「單價是否划算」轉向「在同一 prompt 下,GPT-5.5 能否在 Token 總量更少的情況下完成更複雜任務」。

對產業的訊號

GPT-5.5 把 OpenAI 在 Terminal-Bench 與內部 SWE 評估的差距拉大,這兩個基準分別測試命令列代理執行與實際軟體工程任務——對 Codex 與 Claude Code 的正面對抗而言,是更直接的分數戰場。加上同步開放 1,200 萬 tokens 脈絡視窗,OpenAI 對「企業知識庫全量處理」與「長任務代理」兩條賽道同時加壓。對 Anthropic 而言,Claude Opus 4.7 在 AA 指數以 57 分落後 3 分,對 Claude Code 使用者而言也多一個理由觀察下一世代(Opus 4.8 或新一代 Claude)的進度。

這篇文章 OpenAI 推 GPT-5.5:12M 脈絡、AA 指數登頂、Terminal-Bench 82.7% 改寫代理基準 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

Vercel 資安外洩擴大至數百名使用者;AI 開發者風險更高

Gate News 訊息,4 月 23 日 — Vercel 在 4 月 19 日披露,其安全事件最初被描述為影響「有限的一部分客戶」,現已擴展至更廣泛的開發者社群,特別是那些正在打造 AI 代理(AI agent)工作流程的人。此次攻擊可能影響數百名使用者

GateNews1小時前

MagicBlock 發布 Mirage:面向 Solana 的命令列隱私支付工具

Gate News 訊息,4月23日 — MagicBlock 已發布 Mirage,一款為 Solana 網路打造的命令列隱私支付工具。該工具讓使用者能夠透過終端機指令、機器人或 AI 代理來建立錢包、存入資金並發送私密交易。 Mirage 建置於 Private

GateNews6小時前

OpenClaw 2026.4.22 統一 Codex 與 Pi Harness 間的外掛生命週期,外掛載入時間最高降低 90%

Gate 新聞訊息,4月23日 — OpenClaw,一個開源 AI 代理平台,於 4月22日發布版本 2026.4.22;其最大的變更在於對 Codex harness 與 Pi harness 的生命週期進行對齊。此前,外掛在兩個 harness 路徑之間的行為不一致,且在某些環境中部分 hooks 會缺失

GateNews7小時前

Google Cloud 與 CVC 攜手加速投資組合公司 AI 代理轉型

Gate News 消息,4月23日 — Google Cloud 和私募股權巨頭 CVC 宣布建立一項戰略合作夥伴關係,以加速 CVC 以及其投資組合內數百家公司的 AI 代理轉型。此次合作將利用 Google Cloud 的人工智慧平台以及 Gemini 模型,推動整個投資組合中智慧代理的採用。

GateNews10小時前

Delphi AI 預測市場在 Gensyn 主網上線

Gate News 消息,4 月 23 日——AI 預測市場協議 Delphi 已正式在 Gensyn 上線,Gensyn 是一個 AI 計算協議,使人類與 AI 代理能夠在同一平台上進行預測交易。結算透過已驗證的 AI 預言機在鏈上完成。 Gensyn 先前在 2025 年 12 月於其測試網上線了 Delphi

GateNews10小時前
留言
0/400
暫無留言