根據東查貝廷的監測，MiniMax 發布了一篇技術博客，披露其 M2 系列大型模型無法輸出“馬嘉祺”這個名字的根本原因調查。調查從一個具體案例開始，最終揭示了一個影響整個詞彙表的系統性退化問題。根本原因被確定為分詞器（將文本切分為模型處理單元的組件）在訓練過程中將“嘉祺”合併為一個獨立的標記。在預訓練階段，模型遇到大量的網絡文本並學習了這個標記；然而，在後訓練的對話數據中，包含“嘉祺”的樣本不到5個。在後訓練階段，高頻率的標記如工具調用標記和代碼符號不斷更新周圍的向量空間，推動低頻率標記如“嘉祺”朝錯誤的方向移動。模型仍然“識別”馬嘉祺，並能準確回應相關信息；它僅僅失去了輸出這個標記的能力。團隊隨後對完整詞彙表中的約20萬個標記進行了全面掃描，發現約4.9%的標記出現了顯著退化。退化最嚴重的是日語：29.7%的日語標記顯示出明顯退化，遠高於韓語（3.3%）、俄語（3.7%）、漢語（3.9%）和英語（3.5%）。其他明顯退化的標記還包括像“傳奇私服”和“無痛流產”這樣的網絡SEO垃圾詞，這些詞的機制與“嘉祺”相同。日語的嚴重退化也解開了一個古老的謎團。此前，模型偶爾會在日語對話中混入俄語或韓語字符，但原因未知。這一分析表明，在日語標記的參數漂移後，它們與向量空間中其他語言的標記混淆，導致日語標記的激活錯誤（語言混合）並推動相鄰的低頻漢語標記偏離正常概率範圍（標記遺忘）。解決方案是構建一個涵蓋整個詞彙表的合成數據集，讓模型通過簡單的重複任務練習每個標記。結果立竿見影：混入日語回應中的俄語字符比例從47%下降到1%，整個詞彙表輸出參數的穩定性（餘弦相似度）從最低的0.329提升到全部超過0.97。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

打賞
按讚
回覆
轉發
分享

回覆

請輸入回覆內容

暫無回覆

熱門話題
查看更多
#
Gate廣場五月交易分享
93.78萬熱度
#
BTC重返8萬
5943.13萬熱度
#
日本國債上鏈24小時交易
189.57萬熱度
#
韓國加密徵稅倒計時
254.41萬熱度
#
Polymarket每日熱點
86.09萬熱度

為何大型模型未能生成「馬佳琪」：MiniMax的標記分析揭示訓練後近5%的標記被遺忘

熱門話題

Gate廣場五月交易分享

BTC重返8萬

日本國債上鏈24小時交易

韓國加密徵稅倒計時

Polymarket每日熱點

置頂