英伟达发布 TensorRT-LLM，可将 H100 推理性能最高提升 8 倍

巴比特_

2023-09-10 01:21:23

据 IT 之家 9 月 9 日报道，英伟达近日宣布推出名为 TensorRT-LLM，是一个深度优化的开源库，能够在 Hopper 等 AI GPU 上加速所有大语言模型的推理性能。英伟达目前已经和开源社区合作，利用 SmoothQuant、FlashAttention 和 fMHA 等尖端技术，实现 AI 内核来优化其 GPU，可以加速 GPT-3（175B），Llama Falcom（180B）和 Bloom 模型。

TensorRT-LLM 的亮点在于引入了名为 In-Flight batching 的调度方案，允许工作独立于其他任务进入和退出 GPU。该方案允许同一 GPU 在处理大型计算密集型请求时，动态处理多个较小的查询，提高 GPU 的处理性能，可以让 H100 的吞吐量加快 2 倍。

在性能测试中，英伟达以 A100 为基础，对比了 H100 以及启用 TensorRT-LLM 的 H100，在 GPT-J 6B 推理中，H100 推理性能比 A100 提升 4 倍，而启用 TensorRT-LLM 的 H100 性能是 A100 的 8 倍。

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论