Según los informes, investigadores de NVIDIA y del MIT lanzaron Lightning OPD (Offline On-Policy Distillation), un nuevo marco de post-entrenamiento para modelos de lenguaje grandes que elimina la necesidad de mantener un modelo docente en funcionamiento durante el entrenamiento. Al precomputar las log-probabilidades del modelo docente sin conexión, el marco mejora la eficiencia del entrenamiento en 4x y libera todos los recursos de GPU para el entrenamiento del modelo estudiante.
En pruebas con 8 GPU NVIDIA H100, Lightning OPD destiló con éxito Qwen3-30B-A3B-Base (un modelo MoE con 30 mil millones de parámetros) y logró 71,0 en el benchmark AIME 2024, mientras que el OPD estándar se quedó sin memoria en el mismo hardware. Para el modelo Qwen3-8B más pequeño, el marco requirió solo 30 horas de GPU para alcanzar 69,9 puntos.
Related News
百億新創 Thinking Machines 發表即時互ativo AI 模型,主打「邊說邊聽邊作業」
Google: Los modelos de lenguaje de gran escala se utilizan para ataques reales; la IA puede eludir los mecanismos de seguridad de doble autenticación
Anthropic: Los textos de ciencia ficción entrenan para que Claude Opus 4 tenga una tasa de rescate del 96%