Theo các báo cáo, các nhà nghiên cứu NVIDIA và MIT đã phát hành Lightning OPD (Offline On-Policy Distillation), một khung hậu huấn luyện mới cho các mô hình ngôn ngữ lớn giúp loại bỏ nhu cầu phải giữ mô hình “teacher” chạy liên tục trong quá trình huấn luyện. Bằng cách tính trước log-probabilities của mô hình teacher ở chế độ offline, khung này cải thiện hiệu quả huấn luyện gấp 4 lần đồng thời giải phóng toàn bộ tài nguyên GPU cho việc huấn luyện mô hình “student”.
Trong thử nghiệm trên 8 GPU NVIDIA H100, Lightning OPD đã chưng cất thành công Qwen3-30B-A3B-Base (một mô hình MoE với 30 tỷ tham số) và đạt 71,0 trên benchmark AIME 2024, trong khi OPD chuẩn bị tràn bộ nhớ trên cùng phần cứng. Với mô hình Qwen3-8B nhỏ hơn, khung chỉ cần 30 giờ GPU để đạt 69,9 điểm.