2026-04-17 10:43:33

#GatePreIPOsLaunchesWithSpaceX

Anthropic 推出了新款：Claude Opus 4.7 😈

Anthropic 剛剛發布了 Claude Opus 4.7 — 目前為止他們最強大的公開模型。在比較表中還展示了 Claude Mythos 預覽版 — 這是一個內部的「怪獸」，目前尚未向所有人開放 (因為它具有強大的網絡能力)。

代理程式設計 (對開發者來說至關重要)
SWE-bench Pro (解決複雜實際問題的錯誤修復)：
Mythos 預覽 — 77.8% | Opus 4.7 — 64.3% | Opus 4.6 — 53.4% | GPT-5.4 — 57.7%
SWE-bench Verified: Mythos — 93.9% | Opus 4.7 — 87.6% | Opus 4.6 — 80.8%

這是一個巨大的飛躍。Mythos 在 2024–2025 年的實際 GitHub 任務中幾乎將模型結果翻倍。
Terminal-Bench 2.0 (終端工作、代理程式碼編寫)：
Mythos — 82.0% | GPT-5.4 — 75.1% | Opus 4.7 — 69.4%

多方面思考與複雜任務 Humanity’s Last Exam (是最嚴苛的「人類最後考試」之一，跨學科、研究生級)：

Mythos — 56.8% | Opus 4.7 — 46.9% 配合工具：Mythos — 64.7% | Opus 4.7 — 54.7%
GPQA Diamond (高水平科學思維): 所有頂尖模型約94%，Mythos 略領先 — 94.6%。

代理能力
擴展工具使用 (MCP-Atlas)：
Opus 4.7 — 77.3% (在可用模型中領先)
代理計算機使用 (OSWorld-Verified): Opus 4.7 — 78.0% | Mythos — 79.6%
代理搜索 (BrowseComp): GPT-5.4 以 89.3% 領先，Mythos — 86.9%
網絡安全漏洞重現 (CyberGym): Mythos — 83.1% (在此方面尤其強大)

視覺思維與多模態 CharXiv Reasoning：Opus 4.7 無工具 — 82.1% | 有工具 — 91.0% Mythos — 93.2% 有工具。
多語言問答 (MMMLU): Opus 4.7 和 4.6 — 約 91%，Gemini 3.1 Pro — 92.6%。

Opus 4.7 目前是大多數任務的最佳選擇：
在幾乎所有方面都比 Opus 4.6 明顯更優 (尤其是在代理程式碼、計算機應用、視覺推理和金融分析方面)。
價格相同： $5 / $25 每百萬標記。
可通過 Claude、API、Bedrock、Vertex AI 等渠道使用。
改進了高質量圖像處理 (最高 3.75 MP)，新增「超高」努力等級，Claude Code 中的超級審查等。

Mythos 預覽版簡直是個怪物 — 這是下一個層次。它幾乎在所有代理和複雜基準測試中都占據主導地位。Anthropic 將其限制在有限的訪問範圍內 (Project Glasswing)，因為這個模型在搜索和重現代碼漏洞方面特別強大。實質上 — 這是「前沿」級別的「網絡武器」，目前正進行加強安全措施的測試。Anthropic 直言：Opus 4.7 在幾乎所有方面都不及 Mythos，但更安全，已經可以用於生產。

2026 年 — 不僅僅是「聊天機器人」。我們已經看到真正的代理，可以在終端工作數小時、修復實際代碼、分析金融並解決博士級別的問題。
Opus 4.7 已經可以用於複雜工作流程的生產環境。Mythos 則暗示了行業未來幾個月的發展方向。

這可能已經是未來的趨勢了嗎？
你怎麼看？ 🤝

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

1人按讚了這條動態

打賞
1
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
GatePreIPOs首發SpaceX
18.69萬熱度
#
Gate13週年現場直擊
65.33萬熱度
#
山寨幣強勢反彈
731.71萬熱度
#
加密市場回升
10.24萬熱度
#
Kalshi與內華達州的監管權爭議
45.89萬熱度

#GatePreIPOsLaunchesWithSpaceX

熱門話題

GatePreIPOs首發SpaceX

Gate13週年現場直擊

山寨幣強勢反彈

加密市場回升

Kalshi與內華達州的監管權爭議

置頂