#GatePreIPOsLaunchesWithSpaceX


Anthropic 推出了新款:Claude Opus 4.7 😈

Anthropic 剛剛發布了 Claude Opus 4.7 — 目前為止他們最強大的公開模型。在比較表中還展示了 Claude Mythos 預覽版 — 這是一個內部的「怪獸」,目前尚未向所有人開放 (因為它具有強大的網絡能力)。

代理程式設計 (對開發者來說至關重要)
SWE-bench Pro (解決複雜實際問題的錯誤修復):
Mythos 預覽 — 77.8% | Opus 4.7 — 64.3% | Opus 4.6 — 53.4% | GPT-5.4 — 57.7%
SWE-bench Verified: Mythos — 93.9% | Opus 4.7 — 87.6% | Opus 4.6 — 80.8%

這是一個巨大的飛躍。Mythos 在 2024–2025 年的實際 GitHub 任務中幾乎將模型結果翻倍。
Terminal-Bench 2.0 (終端工作、代理程式碼編寫):
Mythos — 82.0% | GPT-5.4 — 75.1% | Opus 4.7 — 69.4%

多方面思考與複雜任務 Humanity’s Last Exam (是最嚴苛的「人類最後考試」之一,跨學科、研究生級):

Mythos — 56.8% | Opus 4.7 — 46.9% 配合工具:Mythos — 64.7% | Opus 4.7 — 54.7%
GPQA Diamond (高水平科學思維): 所有頂尖模型約94%,Mythos 略領先 — 94.6%。

代理能力
擴展工具使用 (MCP-Atlas):
Opus 4.7 — 77.3% (在可用模型中領先)
代理計算機使用 (OSWorld-Verified): Opus 4.7 — 78.0% | Mythos — 79.6%
代理搜索 (BrowseComp): GPT-5.4 以 89.3% 領先,Mythos — 86.9%
網絡安全漏洞重現 (CyberGym): Mythos — 83.1% (在此方面尤其強大)

視覺思維與多模態 CharXiv Reasoning:Opus 4.7 無工具 — 82.1% | 有工具 — 91.0% Mythos — 93.2% 有工具。
多語言問答 (MMMLU): Opus 4.7 和 4.6 — 約 91%,Gemini 3.1 Pro — 92.6%。

Opus 4.7 目前是大多數任務的最佳選擇:
在幾乎所有方面都比 Opus 4.6 明顯更優 (尤其是在代理程式碼、計算機應用、視覺推理和金融分析方面)。
價格相同: $5 / $25 每百萬標記。
可通過 Claude、API、Bedrock、Vertex AI 等渠道使用。
改進了高質量圖像處理 (最高 3.75 MP),新增「超高」努力等級,Claude Code 中的超級審查等。

Mythos 預覽版簡直是個怪物 — 這是下一個層次。它幾乎在所有代理和複雜基準測試中都占據主導地位。Anthropic 將其限制在有限的訪問範圍內 (Project Glasswing),因為這個模型在搜索和重現代碼漏洞方面特別強大。實質上 — 這是「前沿」級別的「網絡武器」,目前正進行加強安全措施的測試。Anthropic 直言:Opus 4.7 在幾乎所有方面都不及 Mythos,但更安全,已經可以用於生產。

2026 年 — 不僅僅是「聊天機器人」。我們已經看到真正的代理,可以在終端工作數小時、修復實際代碼、分析金融並解決博士級別的問題。
Opus 4.7 已經可以用於複雜工作流程的生產環境。Mythos 則暗示了行業未來幾個月的發展方向。

這可能已經是未來的趨勢了嗎?
你怎麼看? 🤝
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言