GPU 推論は 4 倍高速化され、256K コンテキストは世界最長です。 Wuwen Core Dome は大規模モデル最適化の新記録を樹立しました

巴比特_

大型モデルでお金を稼ぎたいですか? この強力な新顔は、まず推論のコストを下げることに決めました。

出典: Heart of the Machine

画像ソース: Unbounded AIによって生成

大規模モデルビジネスはどのくらいのお金を燃やしますか? 少し前に、ウォール・ストリート・ジャーナルの報道が参考資料として答えを与えました。

レポートによると、MicrosoftのGitHub Copilotビジネス(OpenAIのGPTモデルに支えられている)は月額10ドルを請求しますが、それでもユーザーあたり平均20ドルの費用がかかります。 AIサービスプロバイダーは、構築にコストがかかるだけでなく、運用にも非常にコストがかかるという、大きな経済的課題に直面しています。

「AIを使ってメールを要約するのは、ランボルギーニにピザの配達を頼むようなものだ」と例える人もいました。

OpenAIは、コンテキストの長さが8Kの場合、1Kの入力トークンのコストは3セント、出力のコストは6セントです。 現在、OpenAI には 1 億 8,000 万人のユーザーがおり、1 日あたり 1,000 万件以上のクエリを受信しています。 このように、ChatGPTのようなモデルを運用するためには、OpenAIは必要なコンピューティングハードウェアに1日あたり約700万ドルを投資する必要があり、これは恐ろしいほど高価といえます。

LLMの推論コストを削減することは不可欠であり、推論速度の向上は実証済みのクリティカルパスです。 **

実際、研究コミュニティでは、DeepSpeed、FlexGen、vLLM、OpenPPL、FlashDecoding、TensorRT-LLMなど、LLM推論タスクを高速化するための多くのテクノロジーが提案されています。 当然のことながら、これらの技術にも長所と短所があります。 その中でも、FlashDecodingは、FlashAttentionの著者とスタンフォード大学チームのTri Daoらが先月提案した最先端の手法で、データを並列にロードすることでLLMの推論速度を大幅に向上させるもので、大きな可能性を秘めていると考えられています。 しかし同時に、不必要な計算オーバーヘッドが発生するため、最適化の余地はまだたくさんあります。

この問題をさらに解決するために、Infinigence-AI、清華大学、上海交通大学の合同チームは最近、以前の方法よりも高速化する(GPU推論を2〜4倍高速化できる)だけでなく、さらに重要なことに、NVIDIAとAMDの両方のGPUをサポートする新しいメソッドであるFlashDecoding++を提案しました。 その中核となるアイデアは、非同期アプローチによってアテンション計算の真の並列性を実現し、デコード段階で計算を高速化して「チャンキー」行列積を最適化することです。 **

住所:

GPU推論を2〜4倍高速化

FlashDecoding++はどのようにそれを行いますか? **

LLM推論タスクは、通常、テキスト(トークン)を入力し、LLMモデル計算を通じてテキストまたはその他の形式のコンテンツを生成し続けることです。

LLMの推論計算は、事前入力とデコードの2つの段階に分けることができ、事前入力段階では入力テキストを理解して最初のトークンを生成します。 デコードフェーズでは、後続のトークンが順番に出力されます。 2つの段階では、LLM推論の計算は、アテンション計算と行列乗算計算の2つの主要な部分に分けることができます。

アテンション・コンピューティングの場合、FlashDecoding などの既存の作業は、シャーディング・アテンション・コンピューティングのソフトマックス演算子を使用したデータの並列ロードを実装します。 この方法では、ソフトマックスのさまざまな部分で最大値を同期させる必要があるため、アテンション計算で20%の計算オーバーヘッドが発生します。 行列乗算計算の場合、デコード段階では、左乗算行列は、ほとんどが「分厚い」行列として表示され、行数は一般的に多くなく(例:<=8)、既存のLLM推論エンジンは、テンソルコアなどのアーキテクチャによって高速化するために0を補うことで行数を64に拡張し、その結果、多数の無効な計算(0を掛ける)が発生します。

上記の問題を解決するために、「FlashDecoding++」の核となる考え方は、非同期メソッドによってアテンション計算の真の並列性を実現し、「ハンプティダンプティ」行列乗算最適化のデコード段階での計算を高速化することです。 **

非同期並列部分ソフトマックス計算

*図1 非同期並列セクションソフトマックス計算

以前の研究では、ソフトマックス計算の各部分の最大値をスケールファクターとして入力し、ソフトマックス計算でe指数のオーバーフローが発生し、ソフトマックス計算のさまざまな部分の同期オーバーヘッドが発生しないようにしました(図1(a)(b))。

図2 ソフトマックス入力値の統計分布

「FlashDecoding++」は、ほとんどのLLMでは、ソフトマックス入力分布がより集中していることを指摘しています。 図2に示すように、Llama2-7Bのソフトマックス入力の99.99%以上が[-16.8, 6.5]の範囲に集中しています。 そこで、"FlashDecoding++"では、ソフトマックス計算の一部に固定の最大値を使用することを提案し(図1©)、異なるソフトマックス計算間の頻繁な同期を回避しています。 確率の小さい入力が所定の範囲外の場合、「FlashDecoding++」のこの部分のソフトマックス計算は元の計算方法に縮退します。

ハンプティダンプティマトリックス製品の最適化

図3 ハンプティダンプティ行列乗算シャーディングとデュアルキャッシング機構

Decode ステージへの入力は 1 つまたは複数のトークン ベクトルであるため、そのステージの行列積は “チャンキー” な形状で動作します。 行列A×B=Cを例にとると、A行列とB行列の形状はM×KとK×Nであり、Mが小さいと「ハンプティダンプティ」行列がMを乗算します。 「FlashDecoding++」では、「Humpty Dumpty」行列が一般的なキャッシュによって制限されていることを指摘し、それを高速化するためのダブルキャッシュ機構などの最適化手法を提案しています(図3)。

図 4 適応行列乗算の実装

また、「FlashDecoding++」では、LLM推論の段階では、特定のモデルに対してNとKの値が固定されていることを指摘しています。 そこで「FlashDecoding++」は、Mの大きさに応じて行列積の最適な実装を適応的に選択します。

GPU推論を2〜4倍高速化

図5「FlashDecoding++」NVIDIAとAMDプラットフォームのLLM推論(Llama2-7Bモデル、batchsize = 1)

現在、FlashDecoding++は、NVIDIAやAMDなどの複数のGPUのバックエンドでLLM推論を高速化できます(図5)。 「FlashDecoding++」は、Prefillフェーズでの最初のトークンの生成を高速化し、Decodeフェーズで各トークンの生成速度を高速化することで、長文と短文の両方の生成を高速化できます。 **FlashDecoding++は、FlashDecodingと比較してNVIDIA A100で推論を平均37%高速化し、NVIDIAおよびAMDのマルチGPUバックエンドでHugging Faceよりも最大2〜4倍高速です。 **

AIラージモデル起業ルーキー:ウーウェンコアドーム

本研究の共著者は、武文コアドームの主任科学者で上海交通大学准教授の戴国浩博士、武文コアドームの研究インターンで清華大学の修士課程の学生である洪克博士、武文コアドームの研究インターンで上海交通大学の博士課程の学生である徐嘉明の3人です。 責任著者は、上海交通大学のDai Guohao教授と清華大学電子工程学部長のWang Yu教授です。

2023年5月に設立されたFlashDecoding++は、大規模モデルのソフトウェアとハードウェアの統合に最適なソリューションを作成することを目標としており、FlashDecoding++は大規模モデルコンピューティングエンジン「Infini-ACC」に統合されています。 「Infini-ACC」のサポートにより、Wuwen Core Domeは、大規模モデル「Infini-Megrez」、「ソフトウェアとハードウェアのオールインワンマシン」など、一連の大規模なソフトウェアおよびハードウェア統合ソリューションを開発しています。

「Infini-Megrez」は長文の扱いに非常に優れており、処理可能なテキストの長さを256kトークン**という記録的な数字にまで増やしており、「三体問題3:永遠の死」全体の約40万語の実際の処理は問題ないことがわかっています。 これは、現在大きなモデルで処理できる最長のテキスト長です。

また、「Infini-Megrez」大規模モデルは、C(MEDIUM)、MMLU(ENGLISH)、CMMLU(medium)、AGIなどのデータセットで第1層のアルゴリズム性能を達成しており、「Infini-ACC」コンピューティングエンジンをベースに進化を続けています。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし