NVIDIA تطلق TensorRT-LLM، الذي يمكنه تحسين أداء الاستدلال H100 بما يصل إلى 8 مرات

巴比特_

وفقًا لتقرير صادر عن IT House في 9 سبتمبر، أعلنت NVIDIA مؤخرًا عن إطلاق TensorRT-LLM، وهي مكتبة مفتوحة المصدر محسّنة للغاية يمكنها تسريع أداء الاستدلال لجميع نماذج اللغات الكبيرة على وحدات معالجة الرسومات AI مثل Hopper. تعمل NVIDIA حاليًا مع مجتمع المصادر المفتوحة لاستخدام التقنيات المتطورة مثل SmoothQuant وFlashAttention وfMHA لتنفيذ نواة الذكاء الاصطناعي لتحسين وحدة معالجة الرسومات الخاصة بها، والتي يمكنها تسريع نماذج GPT-3 (175B) وLlama Falcom (180B) وBloom.

أهم ما يميز TensorRT-LLM هو تقديم نظام جدولة يسمى In-Flight Bating، والذي يسمح للعمل بالدخول والخروج من وحدة معالجة الرسومات بشكل مستقل عن المهام الأخرى. يسمح هذا الحل لنفس وحدة معالجة الرسومات بمعالجة العديد من الاستعلامات الصغيرة ديناميكيًا عند معالجة الطلبات الكبيرة التي تتطلب حوسبة مكثفة، مما يؤدي إلى تحسين أداء معالجة وحدة معالجة الرسومات وتسريع إنتاجية H100 مرتين.

في اختبار الأداء، استخدمت NVIDIA A100 كأساس وقارنت H100 وH100 مع تمكين TensorRT-LLM. في استدلال GPT-J 6B، كان أداء الاستدلال لـ H100 أعلى بأربع مرات من أداء A100، بينما كان أداء H100 مع TensorRT - تمكين LLM كان أفضل من A100.8 مرات.

شاهد النسخة الأصلية
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى إخلاء المسؤولية.
تعليق
0/400
لا توجد تعليقات