Xiaomi เปิดเผยรายละเอียดการฝึก MiMo-V2-Pro: พารามิเตอร์โมเดล 1T ใช้ GPU หลายพันเครื่อง

ข้อความจาก Gate News วันที่ 24 เมษายน — หัวหน้าทีมโมเดลภาษาขนาดใหญ่ของ Xiaomi อย่าง Luo Fuli เปิดเผยในการให้สัมภาษณ์เชิงลึกว่าโมเดล MiMo-V2-Pro มีพารามิเตอร์รวม 1 ล้านล้านตัว และต้องใช้ GPU หลายพันเครื่องสำหรับการฝึก เธอกล่าวว่าโทนสเกล 1T ถือเป็นเกณฑ์ขั้นต่ำเพื่อให้ได้ประสิทธิภาพที่เข้าใกล้ระดับ Claude Opus 4.6 และรับบัตรผ่านเข้าสู่การแข่งขันสำหรับเฟสถัดไปของ AI agents.

ในเชิงเทคนิค เวอร์ชัน Pro ใช้กลไกความสนใจแบบกระจัดกระจายอย่างรุนแรง โดยมีอัตราส่วน 7:1 ระหว่าง global attention และ sliding window attention ซึ่งช่วยควบคุมต้นทุนการอินเฟอเรนซ์สำหรับการประมวลผลบริบทระยะยาว โมเดลยังคงสถาปัตยกรรม MTP (Multi-Token Prediction) เพื่อใช้ประโยชน์จากพลังประมวลผลที่เหลือเฟือสำหรับการอินเฟอเรนซ์ที่เร็วขึ้น.

ในส่วนของการบริหาร ทีม MiMo จำนวน 100 คนมีเพียง 30-40 คนที่มีส่วนเกี่ยวข้องโดยตรงกับการปรับปรุงรอบหลัก ทีมทำงานโดยไม่มีโครงสร้างตามลำดับชั้นอย่างเป็นทางการหรือการแบ่งกลุ่มย่อยที่ชัดเจน และไม่มีเส้นตายการส่งมอบ เมื่อพบปัญหาเชิงตัวเลขที่ไม่เสถียร เช่น การฝึกที่มี loss พุ่งสูงขึ้น ทีมจะให้ความสำคัญกับการหยุดการฝึกเพื่อทำการตรวจสอบ แม้ว่าจะหมายถึงการหยุดการดำเนินงานเป็นเวลาหนึ่งหรือสองสัปดาห์ และต้องแบกรับต้นทุนด้านการคำนวณเป็นเงินหลายล้านดอลลาร์.

news.article.disclaimer

btc.bar.articles

Meta Platforms วางแผนลดกำลังคน 10% ในวันที่ 20 พฤษภาคม กระทบตำแหน่งงานประมาณ 8,000 ตำแหน่ง

ข่าวประจำเกต เมสเสจ วันที่ 24 เมษายน — Meta Platforms วางแผนลดกำลังคนลงประมาณ 10% โดยกระทบตำแหน่งงานราว 8,000 ตำแหน่ง ในวันที่ 20 พฤษภาคม การเลิกจ้างมีเจตนาที่จะยกระดับประสิทธิภาพการดำเนินงาน ขณะเดียวกันเพิ่มการลงทุนด้านปัญญาประดิษฐ์ การปรับโครงสร้างที่วางแผนไว้สะท้อนให้เห็นถึง

GateNews17 นาที ที่แล้ว

รัฐบาลทรัมป์เปิดเผยแผนปราบปรามการนำ AI ไปใช้กลั่นผลประโยชน์ โดยกล่าวหาว่าเครือข่ายวิสาหกิจจีนลักลอบขโมยความสามารถของโมเดลอย่างเป็นระบบ

สำนักงานนโยบายเทคโนโลยีของทำเนียบขาว (OSTP) ผู้ช่วยประธานาธิบดีไมเคิล เจ. คราทเซียส (Michael J. Kratsios) ได้ออกแถลงการณ์อย่างเป็นทางการเมื่อวันที่ 23 เมษายน โดยระบุว่า รัฐบาลของทรัมป์มีข้อมูลที่แสดงว่านิติบุคคลต่างชาติ (โดยหลักแล้วอยู่ในจีน) กำลังจงใจโจมตีบริษัทปัญญาประดิษฐ์ขนาดใหญ่ของสหรัฐฯ ผ่านการสกัดความสามารถของโมเดล AI ของสหรัฐฯ อย่างเป็นระบบด้วย “บัญชีตัวแทนจำนวนหลายหมื่น” และระบบเทคนิคการหลุดจากการจำกัด (jailbreak) พร้อมทั้งประกาศมาตรการรับมือ 4 ประการไปพร้อมกัน

MarketWhisper39 นาที ที่แล้ว

DeepSeek เปิดตัว V4 เวอร์ชันตัวอย่างแบบโอเพนซอร์ส โดยได้คะแนนด้านเทคนิค 3206 ซึ่งเหนือกว่า GPT-5.4

DeepSeek 于 4 月 24 日正式推出 V4 预览版系列,以 MIT 许可协议开源,模型权重已同步上线 Hugging Face 及 ModelScope。根据 DeepSeek V4 技术报告,V4-Pro-Max(最高推理力度模式)在 Codeforces 基准取得 3206 分,超越 GPT-5.4。

MarketWhisper55 นาที ที่แล้ว

Cambricon เสร็จสิ้นการปรับใช้ Day 0 ของ DeepSeek-V4 สร้างความสำเร็จสำคัญสำหรับระบบนิเวศชิป AI ของจีน

ข้อความจาก Gate News วันที่ 24 เมษายน — Cambricon ประกาศในวันนี้ว่าได้เสร็จสิ้นการปรับใช้ Day 0 ของ DeepSeek-V4 ซึ่งเป็นโมเดลภาษาขนาดใหญ่ล่าสุดจาก DeepSeek โดยใช้ระบบนิเวศซอฟต์แวร์ NeuWare ที่เป็นกรรมสิทธิ์ของบริษัทและเฟรมเวิร์ก vLLM โค้ดการปรับใช้นั้นถูกเผยแพร่โค้ดเป็นโอเพนซอร์สพร้อมกันด้วย ซึ่งถือเป็น

GateNews1 ชั่วโมง ที่แล้ว

Tencent เปิดซอร์ส Hy3 เวอร์ชันพรีวิว โดยการทดสอบเกณฑ์มาตรฐานของโค้ดทำได้ดีขึ้น 40% เมื่อเทียบกับรุ่นก่อนหน้า

Tencent เปิดแหล่งข้อมูลขนาดใหญ่สำหรับโมเดลภาษาขนาดใหญ่ Hy3 เวอร์ชันพรีวิวอย่างเป็นทางการบนแพลตฟอร์ม GitHub, Hugging Face และ ModelScope เมื่อวันที่ 23 เมษายน และยังให้บริการ API แบบชำระเงินพร้อมกันบนคลาวด์ของ Tencent (Tencent Cloud) อีกด้วย ตามรายงานของ Decrypt เมื่อวันที่ 24 เมษายน Hy3 เวอร์ชันพรีวิวเริ่มต้นการฝึกตั้งแต่ช่วงปลายเดือนมกราคม และจนถึงวันที่ประกาศยังใช้เวลาไม่ถึงสามเดือน

MarketWhisper1 ชั่วโมง ที่แล้ว

การลงทุนในพอร์ตโฟลิโอของ FTX มีมูลค่า 158 ล้านล้านวอน หากไม่ล้มละลาย

FTX ซึ่งเป็นแพลตฟอร์มแลกเปลี่ยนสกุลเงินดิจิทัลแบบรวมศูนย์ และยื่นขอความคุ้มครองการล้มละลายตามบทที่ 11 (Chapter 11) ในเดือนพฤศจิกายน 2022 เนื่องจากขาดสภาพคล่องและเงินทุนไหลออก จะต้องมีการถือครองการลงทุนมูลค่าประมาณ 158.796 ล้านล้านวอน หากไม่ล่มสลาย ตามการวิเคราะห์ที่อ้างโดย Park

CryptoFrontier1 ชั่วโมง ที่แล้ว
แสดงความคิดเห็น
0/400
ไม่มีความคิดเห็น