NVIDIA выпускает TensorRT-LLM, который может улучшить производительность вывода H100 до 8 раз

巴比特_

Согласно отчету IT House от 9 сентября, NVIDIA недавно объявила о запуске TensorRT-LLM, глубоко оптимизированной библиотеки с открытым исходным кодом, которая может повысить производительность вывода всех больших языковых моделей на графических процессорах AI, таких как Hopper. NVIDIA в настоящее время работает с сообществом открытого исходного кода над использованием передовых технологий, таких как SmoothQuant, FlashAttention и fMHA, для реализации ядер искусственного интеллекта для оптимизации своего графического процессора, который может ускорять модели GPT-3 (175B), Llama Falcom (180B) и Bloom.

Изюминкой TensorRT-LLM является введение схемы планирования, называемой пакетной обработкой в полете, которая позволяет входить и выходить из графического процессора независимо от других задач. Это решение позволяет одному и тому же графическому процессору динамически обрабатывать несколько небольших запросов при обработке больших ресурсоемких запросов, улучшая производительность обработки графического процессора и увеличивая пропускную способность H100 в 2 раза.

В тесте производительности NVIDIA использовала A100 в качестве основы и сравнивала H100 и H100 с включенным TensorRT-LLM.В выводе GPT-J 6B производительность вывода H100 была в 4 раза выше, чем у A100, в то время как производительность H100 с TensorRT -Включенный LLM был лучше, чем у А100, в 8 раз.

Посмотреть Оригинал
Отказ от ответственности: Информация на этой странице может поступать от третьих лиц и не отражает взгляды или мнения Gate. Содержание, представленное на этой странице, предназначено исключительно для справки и не является финансовой, инвестиционной или юридической консультацией. Gate не гарантирует точность или полноту информации и не несет ответственности за любые убытки, возникшие от использования этой информации. Инвестиции в виртуальные активы несут высокие риски и подвержены значительной ценовой волатильности. Вы можете потерять весь инвестированный капитал. Пожалуйста, полностью понимайте соответствующие риски и принимайте разумные решения, исходя из собственного финансового положения и толерантности к риску. Для получения подробностей, пожалуйста, обратитесь к Отказу от ответственности.
комментарий
0/400
Нет комментариев