สถาปัตยกรรม DeepSeek V4 ได้รับการยืนยัน: ทำนายได้ 3 จาก 4, ไม่พบโมดูล Engram

ข้อความข่าวประตู ประจำวันที่ 24 เมษายน — วันนี้ DeepSeek ได้เผยแพร่เอกสารสเปกโมเดล V4 ซึ่งยืนยันการคาดการณ์สถาปัตยกรรมก่อนหน้านี้ที่ได้จากการวิเคราะห์ไลบรารีเคอร์เนล TileKernels ที่เผยแพร่เมื่อวาน (23 เมษายน) ตามรายงานการติดตามโดย Beating ยืนยันองค์ประกอบหลักสามส่วน: mHC (Manifold-Constrained Hyper-Connections) แทนที่ HyperConnection ดั้งเดิมของ ByteDance, สถาปัตยกรรม MoE พร้อมการกำหนดเส้นทางผู้เชี่ยวชาญแบบ Top-k และการจัดเก็บน้ำหนักแบบผสมความเที่ยง FP4+FP8 โมดูลความจำแบบมีเงื่อนไขของ Engram ที่คาดการณ์ไว้ไม่ปรากฏในเอกสารสเปกโมเดล

เอกสารสเปกโมเดลเผยส่วนประกอบใหม่ที่ไม่ได้ครอบคลุมใน TileKernels: กลไกความสนใจแบบผสม (CSA + HCA) ขับเคลื่อนการเพิ่มประสิทธิภาพของการรองรับบริบทที่ยาวของ V4 ทำให้ FLOPs สำหรับการอนุมานเหลือเพียง 27% ของระดับ V3.2 ที่หน้าต่างบริบท 1M และ KV cache ลดลงเหลือ 10% ตอนนี้การฝึกใช้ตัวเพิ่มประสิทธิภาพ Muon

การยืนยันครั้งนี้แสดงให้เห็นว่า การนำเคอร์เนลระดับการผลิตสามารถเผยให้เห็นสถาปัตยกรรมโมเดลเบื้องหลังได้ ก่อนที่จะมีการเผยแพร่สเปกอย่างเป็นทางการ

news.article.disclaimer

btc.bar.articles

Xiaomi เปิดเผยรายละเอียดการฝึก MiMo-V2-Pro: พารามิเตอร์โมเดล 1T ใช้ GPU หลายพันเครื่อง

ข้อความจาก Gate News วันที่ 24 เมษายน — หัวหน้าทีมโมเดลภาษาขนาดใหญ่ของ Xiaomi อย่าง Luo Fuli เปิดเผยในการให้สัมภาษณ์เชิงลึกว่าโมเดล MiMo-V2-Pro มีพารามิเตอร์รวม 1 ล้านล้านตัว และต้องใช้ GPU หลายพันเครื่องสำหรับการฝึก เธอกล่าวว่าโทนสเกล 1T ถือเป็นเกณฑ์ขั้นต่ำเพื่อให้ได้ประสิทธิภาพที่เข้าใกล้ระดับ Claude Opus 4.6 และรับบัตรผ่านเข้าสู่การแข่งขันสำหรับเฟสถัดไปของ AI agents เพื่อให้ได้

GateNews1 นาที ที่แล้ว

DeepSeek V4 ทำคะแนนสมบูรณ์แบบบน Putnam-2025 เสมอกับ Axiom ในการให้เหตุผลทางคณิตศาสตร์แบบเป็นทางการ

ข้อความจาก Gate News วันที่ 24 เมษายน — DeepSeek V4 ได้เผยแพร่ผลการประเมินการให้เหตุผลทางคณิตศาสตร์อย่างเป็นทางการ โดยทำคะแนนสมบูรณ์แบบ 120/120 บน Putnam-2025 เสมอกับ Axiom สำหรับอันดับที่หนึ่ง ในโหมดปฏิบัติการที่ใช้ LeanExplore และการสุ่มแบบมีข้อจำกัด V4-Flash-Max ได้คะแนน 81.00 ใน

GateNews9 นาที ที่แล้ว

用 AI ตัวไหนถึงจะดูโดดเด่นที่สุดในแง่สถานะและฐานะ? งานวิจัยเผยรายได้ผู้ใช้ของ Claude สูงกว่าคู่แข่งอย่างมาก ขณะที่ Meta AI รั้งท้าย

การสำรวจของ Epoch AI แสดงให้เห็นว่า ผู้ใช้ Claude ส่วนใหญ่อยู่ในกลุ่มผู้มีรายได้สูง โดย 80% มีรายได้ต่อปีมากกว่า 100,000 ดอลลาร์สหรัฐ; การกระจายรายได้ของ Meta AI กว้างที่สุด โดย 36.5% อยู่ในกลุ่มที่มากกว่า 100,000 และสัดส่วนผู้มีรายได้น้อยสูงที่สุด; ราคาของ Claude มีแนวโน้มเพิ่มขึ้นและมีการคิดค่าบริการแบบแบ่งชั้น ซึ่งอาจทำให้ต้นทุนสูงขึ้น ขณะที่ Meta เริ่มต้นได้ง่ายกว่า ในอนาคตแล้ว AI ตัวใดที่อาจกลายเป็นป้ายบอกตัวตนโดยนัย (implicit identity label)

ChainNewsAbmedia14 นาที ที่แล้ว

V4-Pro ทำอัตราคะแนนผ่านการเขียนโค้ด 67% ในการทดสอบการใช้งานจริงภายใน ใกล้เคียงประสิทธิภาพ Opus 4.5

ข้อความจาก Gate News วันที่ 24 เมษายน — V4 ได้เปิดเผยข้อมูลการใช้งานจริงภายใน (dogfooding) สำหรับโมเดล V4-Pro ต่อสาธารณะแล้ว บริษัทได้รวบรวมงานวิศวกรรมในโลกจริงประมาณ 200 งานจากวิศวกรมากกว่า 50 คน ครอบคลุมการพัฒนาฟีเจอร์ การแก้ไขบั๊ก การปรับโครงสร้างโค้ด (refactoring) และการวินิจฉัย (diagnostics) ข้ามสแตกเทคโนโลยี รวมถึง

GateNews29 นาที ที่แล้ว

สหราชอาณาจักรจับตา AI ของ Anthropic เพื่อเสริมความปลอดภัยทางไซเบอร์ของธนาคาร

สหราชอาณาจักรกำลังพิจารณาก้าวสำคัญด้านความปลอดภัยทางการเงินทางไซเบอร์โดยทำงานร่วมกับบริษัทด้าน AI อย่าง Anthropic การหารือในระยะแรกชี้ให้เห็นว่า รัฐบาลอาจนำโมเดล Claude Mythos อันล้ำสมัยของ Anthropic ไปใช้ทั่วทั้งธนาคารและสถาบันการเงิน การเคลื่อนไหวครั้งนี้มีเป้าหมายเพื่อเสริมความแข็งแกร่งให้กับการป้องกันดังกล่าวเพื่อรับมือกับภัยคุกคามทางไซเบอร์

CryptometerIo33 นาที ที่แล้ว

สำนักงานสิทธิบัตรและเครื่องหมายการค้าของจีนเพิ่ม AI เซมิคอนดักเตอร์ และอินเทอร์เฟซสมอง-คอมพิวเตอร์ลงในโครงการคุ้มครองแบบเร่งด่วน

ข้อความ Gate News วันที่ 24 เมษายน — สำนักงานบริหารทรัพย์สินทางปัญญาแห่งชาติของจีนประกาศเมื่อวันที่ 24 เมษายนว่าจะจัดตั้งการคุ้มครองทรัพย์สินทางปัญญาอย่างครอบคลุมสำหรับเทคโนโลยีเกิดใหม่ ผ่านการปฏิรูปเชิงสถาบัน บริการที่ยกระดับ และการขยายการประยุกต์ใช้งาน การบริหารจะ

GateNews40 นาที ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น