Який звіт змусив Маска вважити його неймовірним?


Moonshot AI (команда Kimi) нещодавно видала вибухову технічну статтю: «Attention Residuals», яка напряму модернізувала залишкові з'єднання (Residual Connections) у Transformer, що використовуються вже майже 10 років. В результаті навіть Elon Musk не утримався від коментаря, відчувши щось неймовірне (рівень震ки unbelievable).
Суть цієї роботи в одній фразі:
«Перестаньте давати кожному шару інформацію з усіх попередніх шарів с однаковою вагою, дозвольте моделі самій навчитися використовувати увагу для вибору дійсно корисних сигналів з ранніх шарів!»
У традиційному Transformer (структура PreNorm) вихід кожного шару:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
Просто та грубо: незалежно від того, чи корисна інформація з 100 попередніх шарів, все одно додається разом. По мірі поглиблення мережі ранні важливі сигнали розбавляються безліччю пізніших шарів майже на ніщо (вони називають це явище PreNorm dilution або representational dilution).
Команда Kimi прямо замінила цей знак «+» на легкувагу крос-шарову увагу (depth-wise attention):
Нова формула приблизно виглядає так (спрощена версія):
x_l = Attention( Q=x_l^{pre}, K=резюме всіх попередніх шарів, V=відповідні значення ) + інші компоненти
Більш практична реалізація називається Block AttnRes: робиться резюме key/value через кілька шарів (наприклад, 8-16 шарів), потім використовується увага для вибору цих резюме замість розрахунку уваги на кожному шарі. Таким чином збільшення пам'яті та обчислювального навантаження мінімальне (затримка інференції <2%), але результати потужні.
Їхні експериментальні результати (з використанням власних моделей Kimi Linear серії, 48B total / 3B active):
• При однакових FLOPs підвищення продуктивності еквівалентне перевазі в 1.25x обчислювальної потужності
• Помітне поліпшення для інференції довгих послідовностей та складних багатокрокових завдань
• Величина прихованих станів (норма) більш стабільна, не як у традиційних залишків, які експоненціально зростають або спадають з глибиною
• Градієнтний потік більш рівномірний, глибші шари легше тренувати
⚠️⚠️
Виникає питання: чому Маск так це сприйняв?
«Залишкові з'єднання спокійно лежали вісім років, і ось хтось нарешті насмілився їх змінити, причому так елегантно, й результати такі дивовижні?!»
Чому це важливо? Тому що залишкові з'єднання — це практично єдина рятівна соломинка для того, щоб训能Transformer на 100+ шарів, навіть понад тисячу. Усі думали, що це вже оптимально й змінювати не можна. В результаті Kimi використав найзнайоміший механізм уваги для вирішення проблем самих залишків, що означає розвинути фразу «увага — це все, що вам потрібно» на новий рівень.
Зараз вже є реалізація на Rust (на основі фреймворку burn), різні графіки пояснень на X, та люди кажуть, що це, після mHC від DeepSeek, ще одна архітектурна інновація, яка дійсно зможе потрапити в наступне покоління відкритих/закритих великих мовних моделей.
Якщо ви працюєте над великими моделями, тренуєте власні LLM, ця статтю варто прочитати ночами — оригінал + код (GitHub вже з відкритим кодом).
Звіт:
Готуйтеся до потрясіння 🚀
Переглянути оригінал
post-image
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
Додати коментар
Додати коментар
Немає коментарів
  • Закріпити