Cognition AI 與 Applied Compute 合作開發的 SWE-Check 模型，通過強化學習實現代碼 bug 檢測，速度和成本顯著優於前沿模型。儘管在評測中與 Claude Opus 4.6 差距縮小，仍需進一步優化。該模型採用線性獎勵和兩階段訓練方法，旨在提高檢測精度和運行效率。預覽版已在 Windsurf Next 上線。

ME News

2026-05-08 07:35:33

摘要生成中

ME News 消息，4 月 15 日（UTC+8），據動察 Beating 監測，AI 編程工具 Windsurf 的母公司 Cognition AI 與 AI 訓練公司 Applied Compute 合作，通過強化學習訓練了一個專門用於程式碼 bug 檢測的模型 SWE-Check。該模型分析用戶當前的程式碼變更（diff），自動標記可能引入的 bug 並給出修復建議。在與訓練數據同分佈的評測中，SWE-Check 的 F1 分數已追平 Claude Opus 4.6（差距從 0.09 降至 0）；在跨分佈評測中差距從 0.49 縮小至 0.29，仍落後於前沿模型但已有明顯進步。關鍵優勢在速度和成本：SWE-Check 的運行速度比前沿模型快一個數量級，推理成本也大幅降低，因此可以在 IDE 中做到即時、免費的 bug 檢測，這是直接調用 Opus 4.6 等大模型做不到的。訓練方法有兩個值得關注的設計： 1. 獎勵線性化（reward linearization）：團隊希望優化的是全局 F-beta 指標，但該指標無法直接拆解到單個樣本。他們通過一階近似將全局指標轉化為可逐樣本計算的獎勵函數，使訓練過程能有效攀升全局指標。早期版本誤報率過高，團隊將 beta 從 1 調至 0.5 以強調精確率。 2. 兩階段後訓練：第一階段純粹最大化 bug 檢測能力，不懲罰延遲；第二階段引入延遲懲罰，依據是真實用戶在觸發檢測後多久會切走的統計分佈。這種分階段方式優於同時優化兩個目標，後者容易陷入局部最優，比如學會極快但分析淺薄。 SWE-Check 的預覽版已在 Windsurf Next 中上線（快捷鍵 cmd+U），後續將進入 Windsurf 正式版。（來源：BlockBeats）

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
Gate廣場五月交易分享
82.44萬熱度
#
比特幣跌破8萬美元
9504.71萬熱度
#
美伊衝突再升級
10.04萬熱度
#
油價過山車
31.12萬熱度
#
Polymarket每日熱點
86.09萬熱度

Windsurf用RL訓練了一個專門抓bug的小模型，分內評測已追平Claude Opus 4.6

熱門話題

Gate廣場五月交易分享

比特幣跌破8萬美元

美伊衝突再升級

油價過山車

Polymarket每日熱點

置頂