Gate 广场「创作者认证激励计划」优质创作者持续招募中!
立即加入,发布优质内容,参与活动即可瓜分月度 $10,000+ 创作奖励!
认证申请步骤:
1️⃣ 打开 App 首页底部【广场】 → 点击右上角头像进入个人主页
2️⃣ 点击头像右下角【申请认证】,提交申请等待审核
立即报名:https://www.gate.com/questionnaire/7159
豪华代币奖池、Gate 精美周边、流量曝光等超 $10,000 丰厚奖励等你拿!
活动详情:https://www.gate.com/announcements/article/47889
从HC到mHC:DeepSeek如何用流形约束改进大模型训练
DeepSeek在2025年以超高性价比的大模型震撼全球,如今进入2026年,这家公司继续展现技术创新的韧性。1月1日,DeepSeek发布新论文,提出了流形约束超连接(mHC)架构,针对现有超连接网络(HC)技术在大模型训练中的稳定性问题提出系统性改进方案。这不仅反映了DeepSeek对技术细节的执着追求,也预示着大模型架构设计正在进入更精细化的优化阶段。
大模型训练的隐藏痛点
超连接网络(HC)技术本身是一个很好的想法,但在实际应用中遇到了关键问题。HC架构通过增加网络连接来提升模型性能,但这个过程中破坏了恒等映射特性——这是神经网络训练中的重要性质,能帮助梯度更好地流动,保持训练稳定。
这导致两个直接后果:
对于追求更大更强模型的企业来说,这是一个无法绕过的瓶颈。
mHC架构的解决思路
DeepSeek的方案很直接:既然HC破坏了恒等映射特性,那就把它恢复回来。
mHC的核心创新在于两个层面:
理论层面
将HC的残差连接空间映射至特定流形,在这个特定的几何空间中恢复恒等映射特性。这听起来复杂,但本质上是通过数学约束,让网络在增加连接的同时保持训练的稳定性。
工程层面
结合严格的基础设施优化确保效率。不是单纯的理论改进,而是确保这个架构在实际训练中能高效运行。
根据论文团队的评估,这个改进实现了"显著的性能改进和优越的可扩展性"——这意味着用mHC的模型不仅训练更稳定,还能更好地扩展到更大规模。
为什么这件事值得关注
从表面看,这是一篇技术论文。但背后有几个值得思考的点:
持续的技术打磨。DeepSeek去年以性价比优势震撼业界,今年的新论文说明这家公司并没有停留在商业成功上,而是继续在基础技术上投入。这种专注很难。
架构设计的深化。大模型竞争已经从"谁的参数更多"进入"谁的架构更优"的阶段。mHC代表的是这种更精细的竞争方向——用更聪明的设计解决训练难题,而不是单纯堆砌资源。
基座模型的演进方向。DeepSeek在论文中明确表示,mHC"将有助于更深入地理解拓扑架构设计,并为基座模型的演进指明有前景的方向"。这说明他们把这个改进看作是未来大模型发展的参考样本。
总结
mHC架构的发布,展现了DeepSeek在技术创新上的持续投入。通过恢复恒等映射特性并结合工程优化,这个新架构解决了HC技术在大模型训练中的实际痛点。虽然这类基础架构的改进不如新模型发布那么吸引眼球,但对于推动大模型技术向前迈进同样重要。在全球AI竞争日趋激烈的背景下,这样的技术积累正在成为企业的核心竞争力。