Gate 新聞訊息，4月27日——SemiAnalysis，一家半導體與 AI 分析公司，發布了一份包含 GPT-5.5、Claude Opus 4.7 與 DeepSeek V4 的編碼助手對比基準測試。關鍵發現：GPT-5.5 標誌著 OpenAI 在六個月後首次重返編碼模型的最前沿，且 SemiAnalysis 工程師如今在 Codex 與 Claude Code 之間交替使用；此前他們幾乎完全依賴 Claude。GPT-5.5 採用一種代號為「Spud」的新預訓練方法，代表 OpenAI 自 GPT-4.5 以來首次擴大預訓練規模。

在實際測試中，出現了明顯的分工。Claude 負責新的專案規劃與初始設定，而 Codex 在推理密集型的除錯修復方面表現更出色。Codex 展現出更強的資料結構理解與邏輯推理能力，但在推斷含糊的使用者意圖方面存在困難。在一個單一儀表板任務中，Claude 會自動複製參考頁面版面，但卻捏造大量資料；而 Codex 則跳過版面，但提供了顯著更準確的資料。

分析揭示了一個基準測試操控細節：OpenAI 在 2 月的博客文章中呼籲業界採用 SWE-bench Pro 作為新的編碼基準標準。然而，GPT-5.5 的公告改用了一個名為「Expert-SWE」的新基準。其原因被埋在細微的附註之中：GPT-5.5 在 SWE-bench Pro 上被 Opus 4.7 超越，且在未發布的 Mythos (77.8%) 上遠遠落後 Anthropic。

至於 Opus 4.7，Anthropic 在發布一週後發表了死因剖析式分析，承認 Claude Code 存在三個在 3 月至 4 月持續數週、影響幾乎所有用戶的錯誤。多位工程師先前已報告 4.6 版出現效能退化，但都被否定為主觀觀察。此外，Opus 4.7 的新 tokenizer 會使 token 使用量最多增加 35%，而 Anthropic 也公開承認——實際上等同於隱藏的價格上調。

DeepSeek V4 被評估為「跟上前沿但不領先」，並將自己定位為封閉來源模型中的最低成本替代方案。分析亦指出：「Claude 依然能在高難度中文寫作任務上優於 DeepSeek V4 Pro」，並評論稱：「Claude 在自己的語言中擊敗了中文模型。"

文章引入一個關鍵概念：模型定價應以「每項任務成本」來評估，而不是「每 token 成本」。GPT-5.5 的定價是 GPT-5.4 的兩倍 (input $5, output $30 per million tokens)，但它能用更少的 token 完成相同的任務，因此實際成本未必更高。SemiAnalysis 的初步數據顯示 Codex 的輸入到輸出比為 80:1，低於 Claude Code 的 100:1。

View Source

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

微軟調查：僅 13% 企業獎勵 AI 驅動職場創新失敗的員工

AI 行業動態

根據微軟於 5 月 5 日發布的年度《工作趨勢指數》報告，該報告分析了數兆筆匿名 Microsoft 365 生產力訊號，並對美國、英國、印度及日本等多個市場的 20,000 名員工進行調查。報告數據顯示，僅 13% 的員工表示在嘗試以 AI 改善工作未獲預期成效時雇主會給予獎勵。

Market Whisper6分鐘前

Meta 開發 AI 助理 Hatch 對標 OpenClaw，6 月底前完成內測

AI Agent AI 行業動態

據《金融時報》於 5 月 5 日報道，Meta 正在開發一款面向普通消費者的 AI 助理（Hatch），靈感來自 OpenAI 旗下的 OpenClaw，目標是在 6 月底前完成內部測試；Meta 同時計劃在今年第四季度前，將獨立的代理型購物工具整合至旗下 Instagram 服務。

Market Whisper15分鐘前

OpenAI 庭審 Brockman 作證：馬斯克曾稱不搞安全，股權會面險動粗

AI 行業動態

據《紐約郵報》於 5 月 6 日報道，OpenAI 總裁 Greg Brockman 於 5 月 5 日在加州奧克蘭聯邦地方法院出庭作證，披露馬斯克 2018 年退出 OpenAI 董事會時發表全員講話，稱他在特斯拉推進 AI 時「不會在安全上花時間」，2017 年與 OpenAI 聯合創始人就股權份額展開商議險動粗。

Market Whisper1小時前

印度資安公司使用 AI 將漏洞測試縮短至數小時

AI Agent AI 行業動態

根據《經濟時報》，包括 Indusface 與 Astra Security 在內的印度資安公司正在採用基於大型語言模型打造的 AI 代理，以加速軟體漏洞測試，將原本需要的天數或週數縮短為數小時。這項轉變反映了攻擊者速度的加快，以及 AI 工具新興的能力

Crypto Frontier1小時前

駁斥 AI 泡沫化！貝萊德執行長：算力短缺將催生「算力期貨市場」

大宗商品 AI 行業動態

全球對 AI 與運算需求激增，貝萊德 CEO 芬克駁斥 AI 泡沫，稱算力短缺將催生「算力期貨」新資產類別。為因應潮流，貝萊德攜手微軟、輝達與 MGX 投入數百億美元於資料中心與能源基礎建設；GIP 以約 400 億美元收購 Aligned Data Centers，並以 107 億美元聯手 EQT 收購 AES。芬克與 Brookfield 等人認為此為長期穩健的複利投資機會，報酬可持續數十年。

鏈新聞abmedia2小時前

留言

0/400

暫無留言