10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
Windsurf用RL訓練了一個專門抓bug的小模型,分內評測已追平Claude Opus 4.6
ME News 消息,4 月 15 日(UTC+8),據 動察 Beating 監測,AI 編程工具 Windsurf 的母公司 Cognition AI 與 AI 訓練公司 Applied Compute 合作,通過強化學習訓練了一個專門用於程式碼 bug 檢測的模型 SWE-Check。該模型分析用戶當前的程式碼變更(diff),自動標記可能引入的 bug 並給出修復建議。 在與訓練數據同分佈的評測中,SWE-Check 的 F1 分數已追平 Claude Opus 4.6(差距從 0.09 降至 0);在跨分佈評測中差距從 0.49 縮小至 0.29,仍落後於前沿模型但已有明顯進步。關鍵優勢在速度和成本:SWE-Check 的運行速度比前沿模型快一個數量級,推理成本也大幅降低,因此可以在 IDE 中做到即時、免費的 bug 檢測,這是直接調用 Opus 4.6 等大模型做不到的。 訓練方法有兩個值得關注的設計: 1. 獎勵線性化(reward linearization):團隊希望優化的是全局 F-beta 指標,但該指標無法直接拆解到單個樣本。他們通過一階近似將全局指標轉化為可逐樣本計算的獎勵函數,使訓練過程能有效攀升全局指標。早期版本誤報率過高,團隊將 beta 從 1 調至 0.5 以強調精確率。 2. 兩階段後訓練:第一階段純粹最大化 bug 檢測能力,不懲罰延遲;第二階段引入延遲懲罰,依據是真實用戶在觸發檢測後多久會切走的統計分佈。這種分階段方式優於同時優化兩個目標,後者容易陷入局部最優,比如學會極快但分析淺薄。 SWE-Check 的預覽版已在 Windsurf Next 中上線(快捷鍵 cmd+U),後續將進入 Windsurf 正式版。 (來源:BlockBeats)