NVIDIA lança TensorRT-LLM, que pode melhorar o desempenho de inferência H100 em até 8 vezes

巴比特_

2023-09-10 01:21:23

De acordo com um relatório da IT House de 9 de setembro, a NVIDIA anunciou recentemente o lançamento do TensorRT-LLM, uma biblioteca de código aberto profundamente otimizada que pode acelerar o desempenho de inferência de todos os grandes modelos de linguagem em GPUs de IA, como Hopper. A NVIDIA está atualmente trabalhando com a comunidade de código aberto para usar tecnologias de ponta como SmoothQuant, FlashAttention e fMHA para implementar kernels de IA para otimizar sua GPU, que pode acelerar os modelos GPT-3 (175B), Llama Falcom (180B) e Bloom.

O destaque do TensorRT-LLM é a introdução de um esquema de agendamento chamado In-Flight batching, que permite que o trabalho entre e saia da GPU independentemente de outras tarefas. Esta solução permite que a mesma GPU processe dinamicamente múltiplas consultas menores ao processar grandes solicitações com uso intensivo de computação, melhorando o desempenho de processamento da GPU e acelerando o rendimento do H100 em 2 vezes.

No teste de desempenho, a NVIDIA usou A100 como base e comparou H100 e H100 com TensorRT-LLM habilitado.Na inferência GPT-J 6B, o desempenho de inferência de H100 foi 4 vezes maior que o de A100, enquanto o desempenho de H100 com TensorRT -LLM habilitado foi melhor que A100, 8 vezes.

Ver original

Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o Aviso Legal.

Comentário

0/400

Sem comentários