Какой отчет заставил Маска испытать недоверие?



Moonshot AI (команда Kimi) недавно выпустила взрывную технический отчет: «Attention Residuals», который прямо модернизировал остаточные соединения (Residual Connections), используемые в Transformer почти 10 лет. В результате даже Elon Musk не смог удержаться от комментария, выражая недоверие (уровень震окования "unbelievable").

Суть этого отчета в одной фразе:
"Перестаньте позволять каждому слою глупо складывать информацию со всех предыдущих слоев с равными весами, позвольте модели самостоятельно научиться использовать внимание для выбора того, какие сигналы из ранних слоев действительно полезны!"

В традиционной Transformer (структура PreNorm) выход каждого слоя:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)

Просто и грубо: независимо от того, полезна ли информация из 100 предыдущих слоев, она все вмешивается. По мере увеличения глубины ранние важные сигналы разбавляются бесчисленными последующими слоями (они называют это явление PreNorm dilution или representational dilution).

Команда Kimi просто заменила этот знак "+" на легковесное кросс-слойное внимание (depth-wise attention):

Новая формула примерно выглядит так (упрощенная версия):
x_l = Attention( Q=x_l^{pre}, K=сводка всех предыдущих слоев, V=соответствующее значение) + другие элементы

Более практичная реализация, которую они называют Block AttnRes: каждые несколько слоев (например, 8-16) создается сводка ключей/значений, затем внимание выбирает эти сводки вместо того, чтобы вычислять внимание на каждом слое. При этом увеличение памяти и вычислений минимально (задержка вывода <2%), но результаты очень впечатляющи.

Их экспериментальные результаты (используя собственные модели серии Kimi Linear, 48B total / 3B active):
• При одинаковом FLOPs производительность улучшается эквивалентно 1,25-кратному преимуществу в вычислительной мощности
• Значительное улучшение на продолжительных последовательностях, сложных многошаговых задачах рассуждения
• Амплитуда скрытого состояния (норма) более стабильна, в отличие от традиционных остатков, которые либо взрываются, либо затухают с глубиной
• Более равномерное распространение градиентов, глубокие слои легче тренировать

⚠️⚠️

Тогда возникает вопрос, почему Маск так острореагировал?

"Остаточные соединения лежали восемь лет, и наконец кто-то осмелился их изменить, и при этом так элегантно, с такими хорошими результатами?!"

Почему это так важно? Потому что остаточные соединения практически единственная спасательная соломинка, благодаря которой Transformer может обучаться с 100+ слоями, даже тысячами слоев, все считали это уже оптимальным и неизменяемым. В результате Kimi, используя самый знакомый механизм внимания, обратил его на решение проблем самых остатков, что практически означает взять фразу "внимание - это все, что вам нужно" на еще новый уровень.

Уже есть реализация на Rust (на основе框架 burn), различные диаграммы визуализации объяснений распространяются в X, и некоторые говорят, что это, после DeepSeek mHC, еще одно действительно инновационное архитектурное решение, которое войдет в следующее поколение открытых/закрытых больших моделей.

Если вы работаете с большими моделями, обучаете собственную LLM, этот отчет стоит того, чтобы прочитать оригинальную версию ночью + код (уже открыт на GitHub).

Отчет:
Готовьтесь к потрясению 🚀
Посмотреть Оригинал
post-image
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить