何のレポートがマスクさえも信じられないほどの衝撃を与えたのか?
Moonshot AI(Kimiチーム)が最近発表した爆発的な技術レポート:《Attention Residuals》は、Transformerでほぼ10年使われてきた残差結合(Residual Connections)をアップグレードしたものです。その結果、Elon Muskまでもがコメントせざるを得なくなり、信じられないほどの衝撃を受けたと感じました。
このレポートの核心は一言で要約できます:
「もう各層が前のすべての情報を等しい重みでただ単に足し合わせるのはやめて、モデル自身に注意機構を学習させて、どの初期層の信号が本当に有用かを選ばせよう!」
従来のTransformer(PreNorm構造)では、各層の出力は次のようになっています:
x_{l} = x_{l-1} + sublayer(x_{l-1} / √something)
これはシンプルで乱暴なやり方で、前の100層の情報が有用かどうかに関わらず、すべてを一気に加算します。層が深くなるほど、初期の重要な信号は後の無数の層によって希釈されてほとんど見えなくなります(これをPreNorm dilutionまたは表現の希釈と呼びます)。
Kimiチームはこの「+」記号を、軽量なクロス層注意(depth-wise attention)に置き換えました。
新しい
原文表示