Gate 广場「創作者認證激勵計畫」優質創作者持續招募中!
立即加入,發布優質內容,參與活動即可瓜分月度 $10,000+ 創作獎勵!
認證申請步驟:
1️⃣ 打開 App 首頁底部【廣場】 → 點擊右上角頭像進入個人首頁
2️⃣ 點擊頭像右下角【申請認證】,提交申請等待審核
立即報名:https://www.gate.com/questionnaire/7159
豪華代幣獎池、Gate 精美周邊、流量曝光等超過 $10,000 的豐厚獎勵等你拿!
活動詳情:https://www.gate.com/announcements/article/47889
從HC到mHC:DeepSeek如何用流形約束改進大模型訓練
DeepSeek在2025年以超高性價比的大模型震撼全球,如今進入2026年,這家公司繼續展現技術創新的韌性。1月1日,DeepSeek發布新論文,提出了流形約束超連接(mHC)架構,針對現有超連接網絡(HC)技術在大模型訓練中的穩定性問題提出系統性改進方案。這不僅反映了DeepSeek對技術細節的執著追求,也預示著大模型架構設計正在進入更精細化的優化階段。
大模型訓練的隱藏痛點
超連接網絡(HC)技術本身是一個很好的想法,但在實際應用中遇到了關鍵問題。HC架構通過增加網絡連接來提升模型性能,但這個過程破壞了恆等映射特性——這是神經網絡訓練中的重要性質,能幫助梯度更好地流動,保持訓練穩定。
這導致兩個直接後果:
對於追求更大更強模型的企業來說,這是一個無法繞過的瓶頸。
mHC架構的解決思路
DeepSeek的方案很直接:既然HC破壞了恆等映射特性,那就把它恢復回來。
mHC的核心創新在於兩個層面:
理論層面
將HC的殘差連接空間映射至特定流形,在這個特定的幾何空間中恢復恆等映射特性。這聽起來複雜,但本質上是通過數學約束,讓網絡在增加連接的同時保持訓練的穩定性。
工程層面
結合嚴格的基礎設施優化確保效率。不是單純的理論改進,而是確保這個架構在實際訓練中能高效運行。
根據論文團隊的評估,這個改進實現了"顯著的性能改進和優越的可擴展性"——這意味著用mHC的模型不僅訓練更穩定,還能更好地擴展到更大規模。
為什麼這件事值得關注
從表面看,這是一篇技術論文。但背後有幾個值得思考的點:
持續的技術打磨。DeepSeek去年以性價比優勢震撼業界,今年的新論文說明這家公司並沒有停留在商業成功上,而是繼續在基礎技術上投入。這種專注很難。
架構設計的深化。大模型競爭已經從"誰的參數更多"進入"誰的架構更優"的階段。mHC代表的是這種更精細的競爭方向——用更聰明的設計解決訓練難題,而不是單純堆砌資源。
基座模型的演進方向。DeepSeek在論文中明確表示,mHC"將有助於更深入地理解拓撲架構設計,並為基座模型的演進指明有前景的方向"。這說明他們把這個改進看作是未來大模型發展的參考樣本。
總結
mHC架構的發布,展現了DeepSeek在技術創新上的持續投入。通過恢復恆等映射特性並結合工程優化,這個新架構解決了HC技術在大模型訓練中的實際痛點。雖然這類基礎架構的改進不如新模型發布那麼吸引眼球,但對於推動大模型技術向前邁進同樣重要。在全球AI競爭日趨激烈的背景下,這樣的技術積累正在成為企業的核心競爭力。