Согласно сообщениям, исследователи NVIDIA и MIT выпустили Lightning OPD (Offline On-Policy Distillation) — новую посттренировочную методику для больших языковых моделей, которая устраняет необходимость держать учительскую модель в работе во время обучения. Путём предварительного вычисления лог-вероятностей учительской модели офлайн эта схема повышает эффективность обучения в 4 раза, одновременно освобождая все ресурсы GPU для обучения студентской модели.
При тестировании на 8 GPU NVIDIA H100 Lightning OPD успешно дистиллировала Qwen3-30B-A3B-Base (MoE-модель с 30 миллиардами параметров) и получила 71,0 на бенчмарке AIME 2024, тогда как стандартная OPD на том же оборудовании упиралась в нехватку памяти. Для более компактной модели Qwen3-8B методике потребовалось всего 30 GPU-часов, чтобы достичь 69,9 балла.
Related News
Созданная Thinking Machines представила интерактивную AI-модель в реальном времени, продвигая подход «говори, слушай и выполняй»
Google: крупные языковые модели используются для реальных атак, AI может обходить механизмы безопасности двухфакторной аутентификации
Anthropic: Киберпреступники с текстами научной фантастики для обучения Claude Opus 4, ставка выкупа 96%