NVIDIA が H100 推論パフォーマンスを最大 8 倍向上できる TensorRT-LLM をリリース

巴比特_

IT House の 9 月 9 日のレポートによると、NVIDIA は最近、Hopper などの AI GPU 上のすべての大規模言語モデルの推論パフォーマンスを高速化できる、深く最適化されたオープン ソース ライブラリである TensorRT-LLM の発売を発表しました。 NVIDIA は現在、オープン ソース コミュニティと協力して、SmoothQuant、FlashAttendant、fMHA などの最先端のテクノロジを使用して AI カーネルを実装し、GPU を最適化しています。これにより、GPT-3 (175B)、Llama Falcom (180B)、Bloom モデルを高速化できます。

TensorRT-LLM のハイライトは、In-Flight バッチングと呼ばれるスケジューリング スキームの導入であり、これにより、作業が他のタスクから独立して GPU に出入りできるようになります。このソリューションにより、大規模なコンピューティング集約型リクエストを処理するときに、同じ GPU で複数の小さなクエリを動的に処理できるようになり、GPU の処理パフォーマンスが向上し、H100 のスループットが 2 倍高速化されます。

パフォーマンス テストでは、NVIDIA は A100 をベースとして使用し、H100 と TensorRT-LLM を有効にした H100 を比較しました。GPT-J 6B 推論では、H100 の推論パフォーマンスは A100 の 4 倍でしたが、TensorRT を使用した H100 のパフォーマンスは-LLM 有効は A100 よりも 8 倍優れていました。

原文表示
免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。
コメント
0/400
コメントなし