Windsurf用RL訓練了一個專門抓bug的小模型,分內評測已追平Claude Opus 4.6

robot
摘要生成中

ME News 消息,4 月 15 日(UTC+8),據 動察 Beating 監測,AI 編程工具 Windsurf 的母公司 Cognition AI 與 AI 訓練公司 Applied Compute 合作,通過強化學習訓練了一個專門用於程式碼 bug 檢測的模型 SWE-Check。該模型分析用戶當前的程式碼變更(diff),自動標記可能引入的 bug 並給出修復建議。 在與訓練數據同分佈的評測中,SWE-Check 的 F1 分數已追平 Claude Opus 4.6(差距從 0.09 降至 0);在跨分佈評測中差距從 0.49 縮小至 0.29,仍落後於前沿模型但已有明顯進步。關鍵優勢在速度和成本:SWE-Check 的運行速度比前沿模型快一個數量級,推理成本也大幅降低,因此可以在 IDE 中做到即時、免費的 bug 檢測,這是直接調用 Opus 4.6 等大模型做不到的。 訓練方法有兩個值得關注的設計: 1. 獎勵線性化(reward linearization):團隊希望優化的是全局 F-beta 指標,但該指標無法直接拆解到單個樣本。他們通過一階近似將全局指標轉化為可逐樣本計算的獎勵函數,使訓練過程能有效攀升全局指標。早期版本誤報率過高,團隊將 beta 從 1 調至 0.5 以強調精確率。 2. 兩階段後訓練:第一階段純粹最大化 bug 檢測能力,不懲罰延遲;第二階段引入延遲懲罰,依據是真實用戶在觸發檢測後多久會切走的統計分佈。這種分階段方式優於同時優化兩個目標,後者容易陷入局部最優,比如學會極快但分析淺薄。 SWE-Check 的預覽版已在 Windsurf Next 中上線(快捷鍵 cmd+U),後續將進入 Windsurf 正式版。 (來源:BlockBeats)

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆