Menurut laporan, peneliti NVIDIA dan MIT merilis Lightning OPD (Offline On-Policy Distillation), sebuah kerangka pasca-pelatihan baru untuk model bahasa besar yang menghilangkan kebutuhan untuk terus menjalankan model pengajar selama pelatihan. Dengan menghitung sebelumnya log-probabilitas model pengajar secara offline, kerangka ini meningkatkan efisiensi pelatihan 4x sambil membebaskan semua sumber daya GPU untuk pelatihan model siswa.
Dalam pengujian pada 8 GPU NVIDIA H100, Lightning OPD berhasil mendistilasi Qwen3-30B-A3B-Base (model MoE dengan 30 miliar parameter) dan meraih 71,0 pada tolok ukur AIME 2024, sedangkan OPD standar kehabisan memori pada perangkat keras yang sama. Untuk model Qwen3-8B yang lebih kecil, kerangka ini hanya membutuhkan 30 jam GPU untuk mencapai 69,9 poin.
Related News
100 miliar startup Thinking Machines meluncurkan model AI interaktif real-time, unggul dengan konsep “berkata sambil mendengar sambil menjalankan”
Google: Model bahasa besar digunakan untuk serangan dunia nyata, AI dapat melewati mekanisme keamanan autentikasi dua faktor
Anthropic: Pelatihan teks fiksi ilmiah untuk Claude Opus 4 meningkatkan tingkat keberhasilan pemerasan sebesar 96%