ข่าวประตูเมือง (Gate News) วันที่ 24 เมษายน — DeepSeek ได้เปิดตัวซีรีส์โมเดลโอเพนซอร์ส V4 ภายใต้ใบอนุญาต MIT โดยน้ำหนัก (weights) พร้อมใช้งานแล้วบน Hugging Face และ ModelScope ซีรีส์นี้ประกอบด้วยโมเดล (MoE) แบบ mixture-of-experts จำนวน 2 รุ่น ได้แก่ V4-Pro มีพารามิเตอร์รวม 1.6 ล้านล้านตัว และเปิดใช้งาน 49 พันล้านตัวต่อโทเค็น และ V4-Flash มีพารามิเตอร์รวม 284 พันล้านตัว และเปิดใช้งาน 13 พันล้านตัวต่อโทเค็น ทั้งสองรองรับหน้าต่างบริบท (context window) 1 ล้านโทเค็น
สถาปัตยกรรมประกอบด้วยการอัปเกรดหลัก 3 ประการ: กลไกความสนใจแบบไฮบริดที่ผสาน (CSA) (compressed sparse attention) และ (HCA) (heavily compressed attention) ซึ่งช่วยลดค่าใช้จ่ายในการรองรับบริบทระยะยาวได้อย่างมีนัยสำคัญ—ค่า FLOPs สำหรับการอินเฟอเรนซ์ของ V4-Pro ในบริบท 1M อยู่ที่เพียง 27% ของ V3.2 และ (VRAM สำหรับแคช KV ที่ใช้จัดเก็บข้อมูลประวัติศาสตร์ระหว่างการอินเฟอเรนซ์) อยู่ที่เพียง 10% ของ V3.2; การเชื่อมต่อไฮเปอร์ลิงก์แบบ manifold-constrained (mHC) ที่มาแทนการเชื่อมต่อ residual แบบดั้งเดิมเพื่อเพิ่มเสถียรภาพของการส่งสัญญาณข้ามเลเยอร์ และตัวเพิ่มประสิทธิภาพ (optimizer) Muon เพื่อการฝึกที่บรรจบเร็วขึ้น การพรีเทรนนิ่งใช้ข้อมูลมากกว่า 32 ล้านล้านโทเค็น
การโพสต์เทรนนิ่งใช้แนวทางแบบสองขั้นตอน: ขั้นแรกฝึกผู้เชี่ยวชาญเฉพาะโดเมนผ่านการ fine-tuning แบบมีผู้สอน (supervised fine-tuning) (SFT) และการเรียนรู้เสริมด้วยการเสริมแรง GRPO จากนั้นจึงรวมเข้าด้วยกันเป็นโมเดลเดียวผ่านการกลั่นความรู้แบบออนไลน์ V4-Pro-Max (highest inference mode) อ้างว่าเป็นโมเดลโอเพนซอร์สที่แข็งแกร่งที่สุด พร้อมตัวชี้วัดด้านการเขียนโค้ดระดับแนวหน้า และช่องว่างที่แคบลงอย่างมากเมื่อเทียบกับโมเดลยุคหน้าแบบปิด (closed-source) ในงานด้านการให้เหตุผลและงานของเอเจนต์ V4-Flash-Max บรรลุประสิทธิภาพด้านการให้เหตุผลระดับ Pro เมื่อมีงบประมาณการคำนวณเพียงพอ แต่ถูกจำกัดด้วยขนาดพารามิเตอร์ในงานด้านความรู้ล้วนและงานเอเจนต์ที่ซับซ้อน น้ำหนักถูกจัดเก็บในความแม่นยำแบบผสม FP4+FP8.
btc.bar.articles
V4-Pro ทำอัตราคะแนนผ่านการเขียนโค้ด 67% ในการทดสอบการใช้งานจริงภายใน ใกล้เคียงประสิทธิภาพ Opus 4.5
สหราชอาณาจักรจับตา AI ของ Anthropic เพื่อเสริมความปลอดภัยทางไซเบอร์ของธนาคาร
สำนักงานสิทธิบัตรและเครื่องหมายการค้าของจีนเพิ่ม AI เซมิคอนดักเตอร์ และอินเทอร์เฟซสมอง-คอมพิวเตอร์ลงในโครงการคุ้มครองแบบเร่งด่วน
กองทัพสหรัฐฯ ดำเนินการโหนด Bitcoin โดยไม่ทำการขุด ตามที่พลเรือเอกระบุ
รายได้ Tesla ไตรมาส 1 เพิ่มขึ้น 16% แตะ 22.4 พันล้านดอลลาร์สหรัฐ; วางแผนเปิดตัวหุ่นยนต์มนุษย์ทรงเครื่องในช่วงกลางปี 2026
กำไรไตรมาส 1 ของ SK Hynix พุ่งขึ้นห้าเท่าสู่ระดับสูงสุดจากกระแส AI พร้อมเพิ่มโบนัสพนักงานเป็น $878K