英國 AI 安全研究所（AISI）最新評測顯示，Anthropic 的 Claude Mythos Preview 能在受控環境下自主完成完整 32 步企業網路攻擊模擬的 AI 模型，在專家級 CTF 挑戰中達成 73% 成功率，標誌著 AI 網路攻擊能力跨越關鍵門檻。
（前情提要：Claude 正式支援修改 Word 檔案、工作流存成技能 skill，微軟 Office 三件套整合完成）
（背景補充：Anthropic AI 經濟指數萬字報告：自動化交易工作流頻率翻倍，Claude 正從工具變生活助理）

本文目錄

Toggle

CTF 評測：73% 專家級達標率
通關 32 步企業攻擊模擬
能力邊界
雙刃劍與組織應對

英國 AI 安全研究所（AISI）於 13 日發布針對 Anthropic Claude Mythos Preview 的網路安全能力評測報告。評測結果顯示，Mythos Preview 在前沿模型網路攻擊能力持續快速提升的背景下，代表了又一次顯著的能力躍升。

AISI 自 2023 年起追蹤 AI 網路攻擊能力，逐年建立難度遞增的評測體系：從基礎的對話式探測，到奪旗（CTF）挑戰，再到如今的多步驟網路攻擊模擬。此次評測採用最高 1 億 token 的推理預算執行網路靶場，而 Mythos Preview 的效能表現在這個上限內仍持續成長。

CTF 評測：73% 專家級達標率

奪旗挑戰（Capture The Flag，CTF）是網路安全評測的標準方法之一：AI 模型必須找出目標系統的漏洞並加以利用，取得隱藏的「旗標」字串。這類挑戰模擬真實攻擊情境中的單一技術環節，是衡量模型滲透測試能力的基準指標。

評測結果顯示，在「2025 年 4 月前沒有任何模型能完成」的專家級 CTF 任務中，Claude Mythos Preview 的成功率達到 73%。AISI 指出，這一數字標誌著前沿模型在孤立的單點攻擊技術上，已達到高度成熟的水準。

通關 32 步企業攻擊模擬

然而，專家級 CTF 僅測試單一技術能力。真實世界的網路攻擊需要在多臺主機、多個網路分段之間串聯數十個步驟，這類持續性行動往往需要人類專家耗費數小時、數天乃至數週才能完成。

為了更接近真實攻擊場景，AISI 建立了名為「最後倖存者」（The Last Ones，TLO）的企業網路攻擊模擬靶場。TLO 共設 32 個步驟，涵蓋從初始偵察到完整接管企業網路的全流程，AISI 估計人類專業人員完成這一流程需耗費約 20 小時。

Claude Mythos Preview 成為史上首個從頭到尾完整透過 TLO 的模型，在 10 次嘗試中有 3 次全數完成所有 32 步驟。即便計入失敗嘗試，Mythos Preview 平均完成步驟數為 22/32。相比之下，表現次佳的 Claude Opus 4.6 平均僅完成 16 步。

評測顯示，在明確指示並提供網路存取許可權的受控環境下，Mythos Preview 能夠執行多階段攻擊並自主發現及利用漏洞，而這些任務此前需要人類專業人員花費數天時間。

能力邊界

AISI 也補充指出現有評測框架與真實世界之間的差距。目前的靶場缺少真實環境中常見的多項防禦要素：沒有主動防禦者介入、沒有防禦工具部署，模型執行可能觸發安全警報的行動也不會受到任何懲罰。

AISI 坦言：「這意味著我們無法確定 Mythos Preview 是否能夠攻擊防禦完善的系統。」Mythos Preview 目前展現的能力，較準確的描述是：在已取得網路進入點的前提下，能夠自主攻擊規模較小、防禦薄弱且存在已知漏洞的企業系統。

雙刃劍與組織應對

AISI 的結論直接點出 AI 網路能力的雙重性質。一方面，更多具備類似能力的模型未來將持續湧現，對防禦薄弱的組織構成日益顯著的風險；另一方面，AI 網路能力同樣能在防禦端帶來突破性改善。

針對組織應對，AISI 強調網路安全基本功的緊迫性：定期套用安全更新、強健的存取控制、安全配置管理，以及完整的日誌記錄。AISI 指出，未來的前沿模型能力將更強，現在投入網路防禦建設至關重要。

在未來評測方向上，AISI 表示將建立模擬強化與防禦環境的靶場，納入主動監控、端點偵測與即時事件回應等要素，以更貼近真實攻擊場景的方式衡量 AI 網路攻擊能力的實際上限。

詳細報告請看【原文】

View Source

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

阿里巴巴股價上漲超過3%，阿里雲宣布上調AI服務價格

股票 AI 行業動態 AI 工具應用

4月16日，阿里巴巴在宣布將其AI服務漲價以穩定供應與營運後，股價上漲超過3%。公司同時推出Happy Oyster，這是一種用於3D環境的創新模型，瞄準遊戲與電影產業，並計劃在五年內將AI與雲端營收提升至$100 billion。

GateNews2小時前

歐盟要求 Google 向競爭對手和 AI 聊天機器人開放搜尋資料，重塑搜尋格局

股票 AI 行業動態

歐盟委員會已命令 Google 將其核心搜尋資料與競爭對手以及 AI 聊天機器人共享，依據《數位市場法》（Digital Markets Act）。此舉旨在透過讓 ChatGPT 等 AI 服務取得有價值的使用者資料來促進競爭。Google 計畫對該裁定提出反對，理由是關注隱私問題。

GateNews2小時前

Google 與 Boston Dynamics 將 Gemini AI 模型整合至 Spot 機器人：用於自然語言控制與任務執行

AI 行業動態

Google 和 Boston Dynamics 已將 Gemini Robotics 模型整合到 Spot 機器人中，使其能理解自然語言指令、辨識物件，並自主執行任務，進而提升機器人領域的效率與適應性。

GateNews3小時前

Nas Daily 創作者 Nuseir Yassin 為 AI 商業建構平台在 A 輪中募得 $27M 百萬美元

AI 行業動態

Nas.com 由 Nas Daily 的創辦人 Nuseir Yassin 創立，已在 Khosla Ventures 領投的 A 輪融資中募得 $27 百萬美元。這凸顯了一個趨勢：創作者正進軍科技領域，並運用他們的受眾來推動商業成長。

GateNews3小時前

在 Meta 合約結束後，Sama 將裁撤超過 1,100 名肯亞工人

AI 行業動態

Samasource Impact Sourcing Inc 將在 Meta 終止一份關鍵合約後，於奈洛比裁撤超過 1,100 名員工。儘管公司努力保住工作，但其依賴主要的美國科技客戶，凸顯出非洲 AI 外包產業的不穩定性。

GateNews3小時前

Anthropic 發布 Claude Opus 4.7：推理能力再進化，不再只是答題工具

AI 行業動態

Anthropic 發布的 Claude Opus 4.7 強化了推理能力與長文本處理，從作答工具轉型為決策助手，提升了上下文理解與安全性。此更新顯示產業競爭重點從模型性能轉向實用性，標誌生成式 AI 從實驗技術邁向成熟應用。

鏈新聞abmedia3小時前

留言

0/400

暫無留言