2026-03-17 07:47:27

是什么報告讓馬斯克看了也覺得不可思議？

Moonshot AI（Kimi團隊）最近扔出一篇炸裂的技術報告：《Attention Residuals》，直接把 Transformer 裡用了快10年的殘差連接（Residual Connections）給升級了。結果連 Elon Musk 都忍不住留言，感覺不可思議（unbelievable 級別的震驚）。
這篇的核心一句話就能概括：
"別再讓每一層都傻傻地把前面所有層的信息等權重加起來了，讓模型自己學會用注意力去挑哪些早期層的信號才真正有用！"
傳統 Transformer（PreNorm結構）裡，每一層的輸出是：
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
簡單粗暴：不管前面100層的信息到底有沒有用，都一股腦加進來。層數一深，早期重要信號就被後面無數層稀釋得快沒了（他們叫這個現象 PreNorm dilution 或 representational dilution）。
Kimi團隊直接把這個"+"號換成了一個輕量級的跨層注意力（depth-wise attention）：
新公式大概長這樣（簡化版）：
x_l = Attention( Q=x_l^{pre}, K=匯總前面所有層的summary, V=對應value ) + 其他東西
更實際的實現他們叫 Block AttnRes：每隔幾層（比如8-16層）做一個總結 key/value，然後用注意力去選這些總結，而不是每一層都算注意力。這樣內存和算量增加很少（推理延遲<2%），但效果很猛。
他們實驗結果（用他們自己的Kimi Linear系列模型，48B total / 3B active那種）：
• 同等 FLOPs 下，性能提升相當於1.25倍算力優勢
• 長序列推理、複雜多步推理任務提升明顯
• 隱藏狀態的 magnitude（範數）更穩定，不像傳統殘差那樣越深越爆炸或越衰減
• 梯度傳播更均勻，深層更容易訓練
⚠️⚠️
問題來了，為什麼馬斯克那麼大反應？
"殘差連接躺了八年，終於有人敢動它了，而且動得這麼優雅，效果還這麼好？！"
這玩意兒為什麼得注重？因為殘差連接幾乎是 Transformer 能訓到100+層、甚至上千層的唯一救命稻草，大家都覺得已經最優了沒法改。結果 Kimi 用最熟悉的注意力機制，反過來治了一下殘差本身的問題，等於把注意力就是你需要的全部這句話又玩出了新高度。
現在已經有 Rust實現（基於burn框架）、各種可視化解釋圖在 X 上刷屏，還有人說這是繼 DeepSeek mHC 之後，又一個真正能進下一代開源/閉源大模型的架構創新。
你要是做大模型、訓自己的LLM、這篇報告值得連夜讀原版 + 代碼（GitHub已經開源）。
報告：
準備好被震撼吧 🚀

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

2人按讚了這條動態

讚賞
2
留言
轉發
分享

留言

請輸入留言內容

暫無留言

熱門話題
查看更多
#
Gate13週年全球慶典
1668.56萬熱度
#
TradFi首創多倍槓桿
53.87萬熱度
#
美聯儲維持利率不變
253.73萬熱度
#
創作者衝榜
1.66萬熱度
#
比特币支撑阻力位分析
44.15萬熱度

熱門 Gate Fun
查看更多

1
🐱
xiaomao
市值:$2317.24持有人數:1
0.00%
2
$
NVIDIA
市值:$2331.03持有人數:1
0.00%
3
ElizaOSv2
全新AI开源框架
市值:$2389.4持有人數:0
0.49%
4
龙虾🦞
Token
市值:$2389.65持有人數:1
0.00%
5
MAOTAI
来口茅台
市值:$2358.62持有人數:1
0.00%

是什么報告讓馬斯克看了也覺得不可思議？

熱門話題

Gate13週年全球慶典

TradFi首創多倍槓桿

美聯儲維持利率不變

創作者衝榜

比特币支撑阻力位分析

熱門 Gate Fun

🐱

xiaomao

$

NVIDIA

ElizaOSv2

全新AI开源框架

龙虾🦞

Token

MAOTAI

来口茅台

置頂