10,000 USDT 悬赏,寻找Gate广场跟单金牌星探!🕵️♀️
挖掘顶级带单员,赢取高额跟单体验金!
立即参与:https://www.gate.com/campaigns/4624
🎁 三大活动,奖金叠满:
1️⃣ 慧眼识英:发帖推荐带单员,分享跟单体验,抽 100 位送 30 USDT!
2️⃣ 强力应援:晒出你的跟单截图,为大神打 Call,抽 120 位送 50 USDT!
3️⃣ 社交达人:同步至 X/Twitter,凭流量赢取 100 USDT!
📍 标签: #跟单金牌星探 #GateCopyTrading
⏰ 限时: 4/22 16:00 - 5/10 16:00 (UTC+8)
详情:https://www.gate.com/announcements/article/50848
為何大型模型未能生成「馬佳琪」:MiniMax的標記分析揭示訓練後近5%的標記被遺忘
根據東查貝廷的監測,MiniMax 發布了一篇技術博客,披露其 M2 系列大型模型無法輸出“馬嘉祺”這個名字的根本原因調查。調查從一個具體案例開始,最終揭示了一個影響整個詞彙表的系統性退化問題。根本原因被確定為分詞器(將文本切分為模型處理單元的組件)在訓練過程中將“嘉祺”合併為一個獨立的標記。在預訓練階段,模型遇到大量的網絡文本並學習了這個標記;然而,在後訓練的對話數據中,包含“嘉祺”的樣本不到5個。在後訓練階段,高頻率的標記如工具調用標記和代碼符號不斷更新周圍的向量空間,推動低頻率標記如“嘉祺”朝錯誤的方向移動。模型仍然“識別”馬嘉祺,並能準確回應相關信息;它僅僅失去了輸出這個標記的能力。團隊隨後對完整詞彙表中的約20萬個標記進行了全面掃描,發現約4.9%的標記出現了顯著退化。退化最嚴重的是日語:29.7%的日語標記顯示出明顯退化,遠高於韓語(3.3%)、俄語(3.7%)、漢語(3.9%)和英語(3.5%)。其他明顯退化的標記還包括像“傳奇私服”和“無痛流產”這樣的網絡SEO垃圾詞,這些詞的機制與“嘉祺”相同。日語的嚴重退化也解開了一個古老的謎團。此前,模型偶爾會在日語對話中混入俄語或韓語字符,但原因未知。這一分析表明,在日語標記的參數漂移後,它們與向量空間中其他語言的標記混淆,導致日語標記的激活錯誤(語言混合)並推動相鄰的低頻漢語標記偏離正常概率範圍(標記遺忘)。解決方案是構建一個涵蓋整個詞彙表的合成數據集,讓模型通過簡單的重複任務練習每個標記。結果立竿見影:混入日語回應中的俄語字符比例從47%下降到1%,整個詞彙表輸出參數的穩定性(餘弦相似度)從最低的0.329提升到全部超過0.97。