searchresults
2026-05-13
05:25

ทีมของ MIT ของ Kaiming He ปล่อยโมเดลการแพร่กระจายความแตกต่างของภาษา ELF พร้อมโทเคนสำหรับการฝึก 45B

ตาม Beating ทีมของ Kaiming He จาก MIT เพิ่งเปิดตัว ELF (Embedded Language Flows) ซึ่งเป็นโมเดลการแพร่กระจายภาษา โดยแตกต่างจากแนวทางออโตรีเกรสซีฟ “คาดเดาโทเค็นถัดไป” ที่ใช้ในโมเดลลักษณะ GPT โดย ELF ทำการสร้างข้อความในพื้นที่ embedding แบบต่อเนื่อง และจะแปลงเป็นโทเค็นแบบไม่ต่อเนื่องเพียงในขั้นสุดท้ายเท่านั้น ในการทดสอบเกณฑ์การสร้างแบบไม่เงื่อนไข (unconditional generation) บน OpenWebText โมเดล ELF-B ขนาด 105M พารามิเตอร์ ทำได้ประมาณ 24.1 ของ perplexity การสร้าง (Gen. PPL) ด้วยการสุ่ม 32 ขั้น แซงหน้
liveNews.More