Gate 新聞訊息,4月27日——SemiAnalysis,一家半導體與 AI 分析公司,發布了一份包含 GPT-5.5、Claude Opus 4.7 與 DeepSeek V4 的編碼助手對比基準測試。關鍵發現:GPT-5.5 標誌著 OpenAI 在六個月後首次重返編碼模型的最前沿,且 SemiAnalysis 工程師如今在 Codex 與 Claude Code 之間交替使用;此前他們幾乎完全依賴 Claude。GPT-5.5 採用一種代號為「Spud」的新預訓練方法,代表 OpenAI 自 GPT-4.5 以來首次擴大預訓練規模。
在實際測試中,出現了明顯的分工。Claude 負責新的專案規劃與初始設定,而 Codex 在推理密集型的除錯修復方面表現更出色。Codex 展現出更強的資料結構理解與邏輯推理能力,但在推斷含糊的使用者意圖方面存在困難。在一個單一儀表板任務中,Claude 會自動複製參考頁面版面,但卻捏造大量資料;而 Codex 則跳過版面,但提供了顯著更準確的資料。
分析揭示了一個基準測試操控細節:OpenAI 在 2 月的博客文章中呼籲業界採用 SWE-bench Pro 作為新的編碼基準標準。然而,GPT-5.5 的公告改用了一個名為「Expert-SWE」的新基準。其原因被埋在細微的附註之中:GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越,且在未發布的 Mythos (77.8%) 上遠遠落後 Anthropic。
至於 Opus 4.7,Anthropic 在發布一週後發表了死因剖析式分析,承認 Claude Code 存在三個在 3 月至 4 月持續數週、影響幾乎所有用戶的錯誤。多位工程師先前已報告 4.6 版出現效能退化,但都被否定為主觀觀察。此外,Opus 4.7 的新 tokenizer 會使 token 使用量最多增加 35%,而 Anthropic 也公開承認——實際上等同於隱藏的價格上調。
DeepSeek V4 被評估為「跟上前沿但不領先」,並將自己定位為封閉來源模型中的最低成本替代方案。分析亦指出:「Claude 依然能在高難度中文寫作任務上優於 DeepSeek V4 Pro」,並評論稱:「Claude 在自己的語言中擊敗了中文模型。"
文章引入一個關鍵概念:模型定價應以「每項任務成本」來評估,而不是「每 token 成本」。GPT-5.5 的定價是 GPT-5.4 的兩倍 (input $5, output $30 per million tokens),但它能用更少的 token 完成相同的任務,因此實際成本未必更高。SemiAnalysis 的初步數據顯示 Codex 的輸入到輸出比為 80:1,低於 Claude Code 的 100:1。
免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見
聲明。
相關文章
微軟調查:僅 13% 企業獎勵 AI 驅動職場創新失敗的員工
根據微軟於 5 月 5 日發布的年度《工作趨勢指數》報告,該報告分析了數兆筆匿名 Microsoft 365 生產力訊號,並對美國、英國、印度及日本等多個市場的 20,000 名員工進行調查。報告數據顯示,僅 13% 的員工表示在嘗試以 AI 改善工作未獲預期成效時雇主會給予獎勵。
Market Whisper6分鐘前
Meta 開發 AI 助理 Hatch 對標 OpenClaw,6 月底前完成內測
據《金融時報》於 5 月 5 日報道,Meta 正在開發一款面向普通消費者的 AI 助理(Hatch),靈感來自 OpenAI 旗下的 OpenClaw,目標是在 6 月底前完成內部測試;Meta 同時計劃在今年第四季度前,將獨立的代理型購物工具整合至旗下 Instagram 服務。
Market Whisper15分鐘前
OpenAI 庭審 Brockman 作證:馬斯克曾稱不搞安全,股權會面險動粗
據《紐約郵報》於 5 月 6 日報道,OpenAI 總裁 Greg Brockman 於 5 月 5 日在加州奧克蘭聯邦地方法院出庭作證,披露馬斯克 2018 年退出 OpenAI 董事會時發表全員講話,稱他在特斯拉推進 AI 時「不會在安全上花時間」,2017 年與 OpenAI 聯合創始人就股權份額展開商議險動粗。
Market Whisper1小時前
印度資安公司使用 AI 將漏洞測試縮短至數小時
根據《經濟時報》,包括 Indusface 與 Astra Security 在內的印度資安公司正在採用基於大型語言模型打造的 AI 代理,以加速軟體漏洞測試,將原本需要的天數或週數縮短為數小時。這項轉變反映了攻擊者速度的加快,以及 AI 工具新興的能力
Crypto Frontier1小時前
駁斥 AI 泡沫化!貝萊德執行長:算力短缺將催生「算力期貨市場」
全球對 AI 與運算需求激增,貝萊德 CEO 芬克駁斥 AI 泡沫,稱算力短缺將催生「算力期貨」新資產類別。為因應潮流,貝萊德攜手微軟、輝達與 MGX 投入數百億美元於資料中心與能源基礎建設;GIP 以約 400 億美元收購 Aligned Data Centers,並以 107 億美元聯手 EQT 收購 AES。芬克與 Brookfield 等人認為此為長期穩健的複利投資機會,報酬可持續數十年。
鏈新聞abmedia2小時前