MiniMax @MiniMax_AI 發長文回應“模型無法說出馬嘉祺”


MiniMax官微發長文回應M2系列模型無法說出馬嘉祺一事,提供了對“嘉祺識別”問題的完整排查過程和技術思考。⬇️
MiniMax表示,其從分詞器版本對齊、embedding統計分布、語義近鄰檢索、預訓練與後訓練模型的few-shot對比實驗、後訓練數據頻次統計以及對全詞表lm_head變化幅度的排序掃描等多個維度進行了排查。最終定位到的原因是:“嘉祺”在分詞器中被合併為一個獨立 #token,但該token在後訓練數據中出現頻次極低,導致模型在後訓練中逐漸遺忘了對該token的生成能力。
查看原文
post-image
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆