DeepSeek เปิดตัวซีรีส์โมเดลโอเพนซอร์ส V4 ด้วยพารามิเตอร์ 1.6T และใบอนุญาต MIT

ข่าวประตูเมือง (Gate News) วันที่ 24 เมษายน — DeepSeek ได้เปิดตัวซีรีส์โมเดลโอเพนซอร์ส V4 ภายใต้ใบอนุญาต MIT โดยน้ำหนัก (weights) พร้อมใช้งานแล้วบน Hugging Face และ ModelScope ซีรีส์นี้ประกอบด้วยโมเดล (MoE) แบบ mixture-of-experts จำนวน 2 รุ่น ได้แก่ V4-Pro มีพารามิเตอร์รวม 1.6 ล้านล้านตัว และเปิดใช้งาน 49 พันล้านตัวต่อโทเค็น และ V4-Flash มีพารามิเตอร์รวม 284 พันล้านตัว และเปิดใช้งาน 13 พันล้านตัวต่อโทเค็น ทั้งสองรองรับหน้าต่างบริบท (context window) 1 ล้านโทเค็น

สถาปัตยกรรมประกอบด้วยการอัปเกรดหลัก 3 ประการ: กลไกความสนใจแบบไฮบริดที่ผสาน (CSA) (compressed sparse attention) และ (HCA) (heavily compressed attention) ซึ่งช่วยลดค่าใช้จ่ายในการรองรับบริบทระยะยาวได้อย่างมีนัยสำคัญ—ค่า FLOPs สำหรับการอินเฟอเรนซ์ของ V4-Pro ในบริบท 1M อยู่ที่เพียง 27% ของ V3.2 และ (VRAM สำหรับแคช KV ที่ใช้จัดเก็บข้อมูลประวัติศาสตร์ระหว่างการอินเฟอเรนซ์) อยู่ที่เพียง 10% ของ V3.2; การเชื่อมต่อไฮเปอร์ลิงก์แบบ manifold-constrained (mHC) ที่มาแทนการเชื่อมต่อ residual แบบดั้งเดิมเพื่อเพิ่มเสถียรภาพของการส่งสัญญาณข้ามเลเยอร์ และตัวเพิ่มประสิทธิภาพ (optimizer) Muon เพื่อการฝึกที่บรรจบเร็วขึ้น การพรีเทรนนิ่งใช้ข้อมูลมากกว่า 32 ล้านล้านโทเค็น

การโพสต์เทรนนิ่งใช้แนวทางแบบสองขั้นตอน: ขั้นแรกฝึกผู้เชี่ยวชาญเฉพาะโดเมนผ่านการ fine-tuning แบบมีผู้สอน (supervised fine-tuning) (SFT) และการเรียนรู้เสริมด้วยการเสริมแรง GRPO จากนั้นจึงรวมเข้าด้วยกันเป็นโมเดลเดียวผ่านการกลั่นความรู้แบบออนไลน์ V4-Pro-Max (highest inference mode) อ้างว่าเป็นโมเดลโอเพนซอร์สที่แข็งแกร่งที่สุด พร้อมตัวชี้วัดด้านการเขียนโค้ดระดับแนวหน้า และช่องว่างที่แคบลงอย่างมากเมื่อเทียบกับโมเดลยุคหน้าแบบปิด (closed-source) ในงานด้านการให้เหตุผลและงานของเอเจนต์ V4-Flash-Max บรรลุประสิทธิภาพด้านการให้เหตุผลระดับ Pro เมื่อมีงบประมาณการคำนวณเพียงพอ แต่ถูกจำกัดด้วยขนาดพารามิเตอร์ในงานด้านความรู้ล้วนและงานเอเจนต์ที่ซับซ้อน น้ำหนักถูกจัดเก็บในความแม่นยำแบบผสม FP4+FP8.

news.article.disclaimer

btc.bar.articles

V4-Pro ทำอัตราคะแนนผ่านการเขียนโค้ด 67% ในการทดสอบการใช้งานจริงภายใน ใกล้เคียงประสิทธิภาพ Opus 4.5

ข้อความจาก Gate News วันที่ 24 เมษายน — V4 ได้เปิดเผยข้อมูลการใช้งานจริงภายใน (dogfooding) สำหรับโมเดล V4-Pro ต่อสาธารณะแล้ว บริษัทได้รวบรวมงานวิศวกรรมในโลกจริงประมาณ 200 งานจากวิศวกรมากกว่า 50 คน ครอบคลุมการพัฒนาฟีเจอร์ การแก้ไขบั๊ก การปรับโครงสร้างโค้ด (refactoring) และการวินิจฉัย (diagnostics) ข้ามสแตกเทคโนโลยี รวมถึง

GateNews10 นาที ที่แล้ว

สหราชอาณาจักรจับตา AI ของ Anthropic เพื่อเสริมความปลอดภัยทางไซเบอร์ของธนาคาร

สหราชอาณาจักรกำลังพิจารณาก้าวสำคัญด้านความปลอดภัยทางการเงินทางไซเบอร์โดยทำงานร่วมกับบริษัทด้าน AI อย่าง Anthropic การหารือในระยะแรกชี้ให้เห็นว่า รัฐบาลอาจนำโมเดล Claude Mythos อันล้ำสมัยของ Anthropic ไปใช้ทั่วทั้งธนาคารและสถาบันการเงิน การเคลื่อนไหวครั้งนี้มีเป้าหมายเพื่อเสริมความแข็งแกร่งให้กับการป้องกันดังกล่าวเพื่อรับมือกับภัยคุกคามทางไซเบอร์

CryptometerIo15 นาที ที่แล้ว

สำนักงานสิทธิบัตรและเครื่องหมายการค้าของจีนเพิ่ม AI เซมิคอนดักเตอร์ และอินเทอร์เฟซสมอง-คอมพิวเตอร์ลงในโครงการคุ้มครองแบบเร่งด่วน

ข้อความ Gate News วันที่ 24 เมษายน — สำนักงานบริหารทรัพย์สินทางปัญญาแห่งชาติของจีนประกาศเมื่อวันที่ 24 เมษายนว่าจะจัดตั้งการคุ้มครองทรัพย์สินทางปัญญาอย่างครอบคลุมสำหรับเทคโนโลยีเกิดใหม่ ผ่านการปฏิรูปเชิงสถาบัน บริการที่ยกระดับ และการขยายการประยุกต์ใช้งาน การบริหารจะ

GateNews21 นาที ที่แล้ว

กองทัพสหรัฐฯ ดำเนินการโหนด Bitcoin โดยไม่ทำการขุด ตามที่พลเรือเอกระบุ

พลเรือเอกระดับสูงคนหนึ่งได้ระบุว่ารัฐบาลสหรัฐกำลังดำเนินการโหนดบนเครือข่าย Bitcoin อย่างแข็งขัน ขณะเดียวกันก็หลีกเลี่ยงการเข้าร่วมในกิจกรรมการขุดโดยเจตนา การเปิดเผยดังกล่าวชี้ให้เห็นว่าเจ้าหน้าที่กำลังมีบทบาทที่เข้มข้นมากขึ้นในโครงสร้างพื้นฐานของบล็อกเชนเพื่อการกำกับดูแลและ

CryptoFrontier38 นาที ที่แล้ว

รายได้ Tesla ไตรมาส 1 เพิ่มขึ้น 16% แตะ 22.4 พันล้านดอลลาร์สหรัฐ; วางแผนเปิดตัวหุ่นยนต์มนุษย์ทรงเครื่องในช่วงกลางปี 2026

ข้อความจาก Gate News วันที่ 24 เมษายน — Tesla รายงานรายได้ไตรมาสแรกอยู่ที่ 22.4 พันล้านดอลลาร์สหรัฐ เมื่อวันที่ 23 เมษายน โดยคิดเป็นการเพิ่มขึ้น 16% เมื่อเทียบกับช่วงเดียวกันของปีก่อน การส่งมอบยานพาหนะทั่วโลกของบริษัทมีมากกว่า 358,000 คัน ขณะที่การผลิตทำสถิติสูงกว่า 408,000 คัน โรงงาน Gigafactory เซี่ยงไฮ้ของ Tesla ส่งมอบยานยนต์ 213,000 คันให้ในไตรมาสนี้

GateNews38 นาที ที่แล้ว

กำไรไตรมาส 1 ของ SK Hynix พุ่งขึ้นห้าเท่าสู่ระดับสูงสุดจากกระแส AI พร้อมเพิ่มโบนัสพนักงานเป็น $878K

ข้อความจาก Gate News ประจำวันที่ 24 เมษายน — SK Hynix รายงานกำไรจากการดำเนินงานรายไตรมาสพุ่งขึ้นห้าเท่าสู่ระดับสูงสุดเป็นประวัติการณ์ที่ 37.61 ล้านล้านวอน ($32.4 billion) เมื่อวันที่ 23 เมษายน โดยได้รับแรงหนุนจากอุปสงค์ที่พุ่งสูงจากปัญญาประดิษฐ์และศูนย์ข้อมูล เงินก้อนดังกล่าวกำลังผลักดันโบนัสพนักงานที่ไม่เคยมีมาก่อน ซึ่งนักวิเคราะห์คาดว่าอาจแตะได้ถึง $878,000 ต่อพนักงานในปี 2027 หากคาดการณ์ผลประกอบการปัจจุบันยังคงอยู่

GateNews1 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น