NVIDIA та MIT випускають фреймворк Lightning OPD для покращення ефективності дистиляції моделей у 4 рази та усунення проблем із пам’яттю GPU

GateNews

2026-05-12 11:13:28

За повідомленнями, дослідники NVIDIA та MIT випустили Lightning OPD (Offline On-Policy Distillation) — нову посттренувальну методику для великих мовних моделей, яка усуває потребу тримати модель-вчителя запущеною під час навчання. Завдяки попередньому обчисленню лог-імовірностей моделі-вчителя офлайн фреймворк підвищує ефективність навчання у 4 рази, одночасно звільняючи всі ресурси GPU для тренування моделі-студента.

Під час тестування на 8 GPU NVIDIA H100 Lightning OPD успішно дистилювала Qwen3-30B-A3B-Base (MoE-модель із 30 мільярдами параметрів) і досягла 71,0 на бенчмарку AIME 2024, тоді як стандартна OPD на тій самій апаратній платформі вичерпала пам’ять. Для меншої моделі Qwen3-8B фреймворк вимагав лише 30 GPU-годин, щоб досягти 69,9 бала.

Переглянути джерело

Застереження: Інформація на цій сторінці може походити від третіх осіб і не відображає погляди або думки Gate. Вміст, що відображається на цій сторінці, є лише довідковим і не є фінансовою, інвестиційною або юридичною порадою. Gate не гарантує точність або повноту інформації і не несе відповідальності за будь-які збитки, що виникли в результаті використання цієї інформації. Інвестиції у віртуальні активи пов'язані з високим ризиком і піддаються значній ціновій волатильності. Ви можете втратити весь вкладений капітал. Будь ласка, повністю усвідомлюйте відповідні ризики та приймайте обережні рішення, виходячи з вашого фінансового становища та толерантності до ризику. Для отримання детальної інформації, будь ласка, зверніться до Застереження.

Пов'язані статті

Anthropic веде переговори про придбання стартапу з інструментами для розробників Stainless щонайменше за 300 мільйонів доларів

Новини індустрії ШІ

За даними The Information, Anthropic веде переговори на просунутій стадії щодо придбання стартапу з інструментів для розробників Stainless щонайменше за 300 мільйонів доларів. Інструменти для розробників Stainless були впроваджені OpenAI та Google.

GateNews3хв. тому

Команда Каймінга Хе випустила мовну дифузійну модель ELF із 45 млрд токенів для навчання

Новини індустрії ШІ

Команда Каймінга Хе з MIT нещодавно випустила ELF (Embedded Language Flows), мовну дифузійну модель, яка відходить від автографресивного підходу «передбачити наступний токен», що використовується в моделях у стилі GPT. Натомість ELF виконує генерацію тексту в неперервному просторі вбудовувань, перетворюючи на дискретні токени лише на фінальному кроці. У бенчмарках безумовної генерації OpenWebText модель ELF-B із 105 млн параметрів досягла приблизно 24,1 perplexity генерації (Gen. PPL) при вибірц

GateNews47хв. тому

Ендрю Нг: «ШІ не спричинить масового безробіття», підбір фахівців у софтвері й надалі залишається потужним

Новини індустрії ШІ

Відомий науковець у сфері AI, співзасновник DeepLearning.AI Ендрю Нг (Andrew Ng) 12 травня в дописі в X та в електронному бюлетені The Batch заявив, що «AI не спричинить хвилю масового безробіття (jobpocalypse)», прямо заперечивши наратив про страхи, пов’язані з безробіттям через AI. За оригінальним постом Andrew Ng ця публікація набрала понад 2 600 лайків і стала однією з найобговорюваніших упродовж тижня в AI-галузі статей з точки зору актуальності. Ключовий аргумент Нг: найм у сфері розробки

ChainNewsAbmedia1год тому

Супернода Kunlun Chip Tian Chi від Baidu на 256 карток планує запуск у червні з покращенням пропускної здатності на 25%

Новини індустрії ШІ

За даними Baidu, 13 травня під час конференції для розробників Create 2026 компанія оголосила, що її Kunlun Chip Tian Chi 256-карточний супервузол офіційно запустять у червні. Показник пропускної здатності покращено на 25% порівняно з попереднім поколінням, а ефективність виведення (inference) підвищено на 50%. Супервузол завершив адаптацію для популярних моделей, зокрема Wenxin, DeepSeek, GLM і MiniMax, а наскрізну затримку (end-to-end latency) оптимізували на 50% завдяки оновленій мережевій ар

GateNews1год тому

Cerebras оцінила IPO вище діапазону $150–160, залучивши $4,8 млрд на надзвичайно високому попиті

Акції Новини індустрії ШІ

За даними Bloomberg, Cerebras Systems планує встановити ціну IPO вище діапазону US$150–160 на 13 травня 2026 року, при цьому попит на продаж акцій зріс більш ніж у 20 разів порівняно з доступними акціями. Компанія — виробник AI-чипів — пропонує 30 мільйонів акцій і, у разі оцінки за верхньою межею діапазону, залучить US$4,8 мільярда. Це зробить її найбільшим IPO у США цього року, не враховуючи приватні розміщення. Компанія повідомила про чистий прибуток у розмірі US$87,9 мільйона при виручці US$

GateNews1год тому

Meta пропонує конкурентні AI-чатботи з безкоштовним доступом до WhatsApp на один місяць, щоб уникнути антимонопольного штрафу в ЄС

Новини індустрії ШІ

За даними Reuters, Meta запропонувала конкурентам чатботів зі штучним інтелектом у Європейській економічній зоні (ЄЕЗ) один місяць безкоштовного доступу до WhatsApp Business API як частину зусиль з урегулювання антимонопольного розслідування ЄС, яке може завершитися штрафами на суму до 10% річного глобального обороту. Європейська комісія, яка в квітні дала зрозуміти, що може зобов’язати до доступу після того, як Meta обмежила WhatsApp власними ШІ-можливостями в січні, а потім відкрила його конку

GateNews1год тому

Прокоментувати

0/400

Немає коментарів