福利加码,Gate 廣場明星帶單交易員三期招募開啟!
入駐發帖 · 瓜分 $30,000 月度獎池 & 千萬級流量扶持!
如何參與:
1️⃣ 報名成為跟單交易員:https://www.gate.com/copytrading/lead-trader-registration/futures
2️⃣ 報名活動:https://www.gate.com/questionnaire/7355
3️⃣ 入駐 Gate 廣場,持續發布交易相關原創內容
豐厚獎勵等你拿:
首發優質內容即得 $30 跟單體驗金
每雙周瓜分 $10,000U 內容獎池
Top 10 交易員額外瓜分 $20,000U 登榜獎池
精選帖推流、首頁推薦、周度明星交易員曝光
詳情:https://www.gate.com/announcements/article/50291
是什么報告讓馬斯克看了也覺得不可思議?
Moonshot AI(Kimi團隊)最近扔出一篇炸裂的技術報告:《Attention Residuals》,直接把 Transformer 裡用了快10年的殘差連接(Residual Connections)給升級了。結果連 Elon Musk 都忍不住留言,感覺不可思議(unbelievable 級別的震驚)。
這篇的核心一句話就能概括:
"別再讓每一層都傻傻地把前面所有層的信息等權重加起來了,讓模型自己學會用注意力去挑哪些早期層的信號才真正有用!"
傳統 Transformer(PreNorm結構)裡,每一層的輸出是:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
簡單粗暴:不管前面100層的信息到底有沒有用,都一股腦加進來。層數一深,早期重要信號就被後面無數層稀釋得快沒了(他們叫這個現象 PreNorm dilution 或 representational dilution)。
Kimi團隊直接把這個"+"號換成了一個輕量級的跨層注意力(depth-wise attention):
新公式大概長這樣(簡化版):
x_l = Attention( Q=x_l^{pre}, K=匯總前面所有層的summary, V=對應value ) + 其他東西
更實際的實現他們叫 Block AttnRes:每隔幾層(比如8-16層)做一個總結 key/value,然後用注意力去選這些 總結,而不是每一層都算注意力。這樣內存和算量增加很少(推理延遲<2%),但效果很猛。
他們實驗結果(用他們自己的Kimi Linear系列模型,48B total / 3B active那種):
• 同等 FLOPs 下,性能提升相當於1.25倍算力優勢
• 長序列推理、複雜多步推理任務提升明顯
• 隱藏狀態的 magnitude(範數)更穩定,不像傳統殘差那樣越深越爆炸或越衰減
• 梯度傳播更均勻,深層更容易訓練
⚠️⚠️
問題來了,為什麼馬斯克那麼大反應?
"殘差連接躺了八年,終於有人敢動它了,而且動得這麼優雅,效果還這麼好?!"
這玩意兒為什麼得注重?因為殘差連接幾乎是 Transformer 能訓到100+層、甚至上千層的唯一救命稻草,大家都覺得已經最優了沒法改。結果 Kimi 用最熟悉的注意力機制,反過來治了一下殘差本身的問題,等於把注意力就是你需要的全部這句話又玩出了新高度。
現在已經有 Rust實現(基於burn框架)、各種可視化解釋圖在 X 上刷屏,還有人說這是繼 DeepSeek mHC 之後,又一個真正能進下一代開源/閉源大模型的架構創新。
你要是做大模型、訓自己的LLM、這篇報告值得連夜讀原版 + 代碼(GitHub已經開源)。
報告:
準備好被震撼吧 🚀