Gate Booster 第 4 期:发帖瓜分 1,500 $USDT
🔹 发布 TradFi 黄金福袋原创内容,可得 15 $USDT,名额有限先到先得
🔹 本期支持 X、YouTube 发布原创内容
🔹 无需复杂操作,流程清晰透明
🔹 流程:申请成为 Booster → 领取任务 → 发布原创内容 → 回链登记 → 等待审核及发奖
📅 任务截止时间:03月20日16:00(UTC+8)
立即领取任务:https://www.gate.com/booster/10028?pid=allPort&ch=KTag1BmC
更多详情:https://www.gate.com/announcements/article/50203
是什么报告让马斯克看了也觉得不可思议?
Moonshot AI(Kimi团队)最近扔出一篇炸裂的技术报告:《Attention Residuals》,直接把 Transformer 里用了快 10年的残差连接(Residual Connections)给升级了。结果连 Elon Musk 都忍不住留言,感觉不可思议(unbelievable 级别的震惊)。
这篇的核心一句话就能概括:
“别再让每一层都傻傻地把前面所有层的信息等权重加起来了,让模型自己学会用注意力去挑哪些早期层的信号才真正有用!”
传统 Transformer(PreNorm结构)里,每一层的输出是:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
简单粗暴:不管前面 100层的信息到底有没有用,都一股脑加进来。层数一深,早期重要信号就被后面无数层稀释得快没了(他们叫这个现象 PreNorm dilution 或 representational dilution)。
Kimi团队直接把这个“+”号换成了一个轻量级的跨层注意力(depth-wise attention):
新公式大概长这样(简化版):
x_l = Attention( Q=x_l^{pre}, K=汇总前面所有层的summary, V=对应value ) + 其他东西
更实际的实现他们叫 Block AttnRes:每隔几层(比如8-16层)做一个总结 key/value,然后用注意力去选这些 总结,而不是每一层都算注意力。这样内存和算量增加很少(推理延迟<2%),但效果很猛。
他们实验结果(用他们自己的Kimi Linear系列模型,48B total / 3B active那种):
• 同等 FLOPs 下,性能提升相当于1.25倍算力优势
• 长序列推理、复杂多步推理任务提升明显
• 隐藏状态的 magnitude(范数)更稳定,不像传统残差那样越深越爆炸或越衰减
• 梯度传播更均匀,深层更容易训练
⚠️⚠️
问题来了,为什么马斯克那么大反应?
“残差连接躺了八年,终于有人敢动它了,而且动得这么优雅,效果还这么好?!”
这玩意儿为什么得注重?因为残差连接几乎是 Transformer 能训到100+层、甚至上千层的唯一救命稻草,大家都觉得已经最优了没法改。结果 Kimi 用最熟悉的注意力机制,反过来治了一下残差本身的问题,等于把注意力就是你需要的全部这句话又玩出了新高度。
现在已经有 Rust实现(基于burn框架)、各种可视化解释图在 X 上刷屏,还有人说这是继 DeepSeek mHC 之后,又一个真正能进下一代开源/闭源大模型的架构创新。
你要是做大模型、训自己的LLM、这篇报告值得连夜读原版 + 代码(GitHub已经开源)。
报告:
准备好被震撼吧 🚀