從HC到mHC:DeepSeek如何用流形約束改進大模型訓練

DeepSeek在2025年以超高性價比的大模型震撼全球,如今進入2026年,這家公司繼續展現技術創新的韌性。1月1日,DeepSeek發布新論文,提出了流形約束超連接(mHC)架構,針對現有超連接網絡(HC)技術在大模型訓練中的穩定性問題提出系統性改進方案。這不僅反映了DeepSeek對技術細節的執著追求,也預示著大模型架構設計正在進入更精細化的優化階段。

大模型訓練的隱藏痛點

超連接網絡(HC)技術本身是一個很好的想法,但在實際應用中遇到了關鍵問題。HC架構通過增加網絡連接來提升模型性能,但這個過程破壞了恆等映射特性——這是神經網絡訓練中的重要性質,能幫助梯度更好地流動,保持訓練穩定。

這導致兩個直接後果:

  • 訓練不穩定:梯度流動受阻,模型收斂困難
  • 可擴展性受限:模型越大,問題越明顯,難以支撐超大規模模型訓練

對於追求更大更強模型的企業來說,這是一個無法繞過的瓶頸。

mHC架構的解決思路

DeepSeek的方案很直接:既然HC破壞了恆等映射特性,那就把它恢復回來。

mHC的核心創新在於兩個層面:

理論層面

將HC的殘差連接空間映射至特定流形,在這個特定的幾何空間中恢復恆等映射特性。這聽起來複雜,但本質上是通過數學約束,讓網絡在增加連接的同時保持訓練的穩定性。

工程層面

結合嚴格的基礎設施優化確保效率。不是單純的理論改進,而是確保這個架構在實際訓練中能高效運行。

根據論文團隊的評估,這個改進實現了"顯著的性能改進和優越的可擴展性"——這意味著用mHC的模型不僅訓練更穩定,還能更好地擴展到更大規模。

為什麼這件事值得關注

從表面看,這是一篇技術論文。但背後有幾個值得思考的點:

持續的技術打磨。DeepSeek去年以性價比優勢震撼業界,今年的新論文說明這家公司並沒有停留在商業成功上,而是繼續在基礎技術上投入。這種專注很難。

架構設計的深化。大模型競爭已經從"誰的參數更多"進入"誰的架構更優"的階段。mHC代表的是這種更精細的競爭方向——用更聰明的設計解決訓練難題,而不是單純堆砌資源。

基座模型的演進方向。DeepSeek在論文中明確表示,mHC"將有助於更深入地理解拓撲架構設計,並為基座模型的演進指明有前景的方向"。這說明他們把這個改進看作是未來大模型發展的參考樣本。

總結

mHC架構的發布,展現了DeepSeek在技術創新上的持續投入。通過恢復恆等映射特性並結合工程優化,這個新架構解決了HC技術在大模型訓練中的實際痛點。雖然這類基礎架構的改進不如新模型發布那麼吸引眼球,但對於推動大模型技術向前邁進同樣重要。在全球AI競爭日趨激烈的背景下,這樣的技術積累正在成為企業的核心競爭力。

此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate App
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)