Gate News 消息,4 月 24 日——DeepSeek 已在 MIT 许可下发布 V4 系列开源模型,权重现已在 Hugging Face 和 ModelScope 上提供。该系列包含两个专家混合 (MoE) 模型:V4-Pro 总参数 1.6 万亿,按每个 token 激活 49 亿;以及 V4-Flash 总参数 2840 亿,按每个 token 激活 130 亿。两者都支持 100 万 token 的上下文窗口。
该架构包含三项关键升级:一种混合注意力机制,结合压缩稀疏注意力 (CSA) 和高度压缩注意力 (HCA),从而显著降低长上下文开销——V4-Pro 在 1M 上下文下的推理 FLOPs 仅为 V3.2 的 27%,用于在推理过程中存储历史信息的 KV 缓存 (VRAM) 仅为 V3.2 的 10%;用流形约束超连接 (mHC) 替代传统残差连接,以增强跨层信号传播稳定性;以及 Muon 优化器以实现更快的训练收敛。预训练使用了超过 32 万亿 tokens 的数据。
后训练采用两阶段方法:首先通过监督微调 (SFT) 和 GRPO 强化学习训练领域特定专家,然后通过在线蒸馏将它们合并为单一模型。V4-Pro-Max (最高推理模式) 声称是最强的开源模型,拥有顶级代码基准,并在推理和智能体任务上显著缩小了与闭源前沿模型的差距。V4-Flash-Max 在算力充足的情况下实现了 Pro 级推理性能,但在纯知识和复杂智能体任务上受限于参数规模。权重以混合 FP4+FP8 精度存储。
إخلاء المسؤولية: قد تكون المعلومات الواردة في هذه الصفحة من مصادر خارجية ولا تمثل آراء أو مواقف Gate. المحتوى المعروض في هذه الصفحة هو لأغراض مرجعية فقط ولا يشكّل أي نصيحة مالية أو استثمارية أو قانونية. لا تضمن Gate دقة أو اكتمال المعلومات، ولا تتحمّل أي مسؤولية عن أي خسائر ناتجة عن استخدام هذه المعلومات. تنطوي الاستثمارات في الأصول الافتراضية على مخاطر عالية وتخضع لتقلبات سعرية كبيرة. قد تخسر كامل رأس المال المستثمر. يرجى فهم المخاطر ذات الصلة فهمًا كاملًا واتخاذ قرارات مدروسة بناءً على وضعك المالي وقدرتك على تحمّل المخاطر. للتفاصيل، يرجى الرجوع إلى
إخلاء المسؤولية.
مقالات ذات صلة
أعلنت حكومة ترامب خطة لمكافحة إعادة تدوير الذكاء الاصطناعي، تتهم الشركات الصينية بالسرقة المنهجية لقدرات نماذج الذكاء الاصطناعي المرتبطة بالمنظومات
أدلى مساعد الرئيس لمكتب البيت الأبيض للسياسات في مجال التكنولوجيا (OSTP) مايكل جاي كراتزيوس (Michael J. Kratsios) ببيان رسمي في 23 أبريل، ذكر فيه أن حكومة ترامب لديها معلومات تُظهر أن جهات أجنبية (متمركزة أساسًا في الصين) تقوم عن قصد باستهداف شركات أمريكية كبرى في مجال الذكاء الاصطناعي، من خلال «عشرات الآلاف من حسابات الوكلاء» وأنظمة تقنيات تجاوز الحماية (jailbreak) لاستخراج قدرات نماذج الذكاء الاصطناعي الأمريكية بشكل منهجي، مع الإعلان في الوقت نفسه عن أربع تدابير لمواجهة ذلك.
MarketWhisperمنذ 7 د
أطلقت DeepSeek النسخة التجريبية المفتوحة المصدر V4، وحصلت على درجة تقنية 3206 متفوقة على GPT-5.4
DeepSeek 于 4 月 24 日正式推出 V4 预览版系列,以 MIT 许可协议开源,模型权重已同步上线 Hugging Face 及 ModelScope。根据 DeepSeek V4 技术报告,V4-Pro-Max(最高推理力度模式)在 Codeforces 基准取得 3206 分,超越 GPT-5.4。
MarketWhisperمنذ 23 د
寒武纪完成 DeepSeek-V4 的 Day 0 适配,成为中国 AI 芯片生态的里程碑
Gate News 消息,4 月 24 日——寒武纪今日宣布,已使用其专有 NeuWare 软件生态系统和 vLLM 框架,完成了 DeepSeek-V4(DeepSeek 最新的大语言模型)的 Day 0 适配。适配代码已同步开源,标志着
GateNewsمنذ 39 د
طرحت Tencent كمصدر مفتوح Hy3 في نسخة المعاينة، وقد تحسن أداء الاختبارات القياسية للشفرة بنسبة 40% مقارنة بالإصدار السابق
أطلقت شركة Tencent في 23 أبريل بشكل رسمي نموذجًا لغويًا كبيرًا من نوع Hy3 بإصدار المعاينة المفتوح المصدر على منصات GitHub وHugging Face وModelScope، كما توفر في الوقت نفسه خدمة واجهة برمجة تطبيقات مدفوعة عبر Tencent Cloud. ووفقًا لما ذكرته Decrypt في 24 أبريل، بدأ إصدار Hy3 بإصدار المعاينة التدريب من أواخر يناير، ولم يستغرق إطلاقه أكثر من ثلاثة أشهر بحلول تاريخ النشر.
MarketWhisperمنذ 46 د
استثمارات محفظة FTX بقيمة 158 تريليون وون إذا لم تكن قد أفلتست
FTX، منصة تداول العملات الرقمية المركزية التي قدمت طلبًا لحماية الإفلاس بموجب الفصل 11 في نوفمبر 2022 بسبب نقص السيولة وتدفقات رأس المال الخارجة، كانت ستحتفظ باستثمارات بقيمة تقارب 158.796 تريليون وون إذا لم تكن قد انهارت، وفقًا لتحليل مستشهد به من قِبل Park
CryptoFrontierمنذ 49 د
小米披露 MiMo-V2-Pro 训练细节:1T 模型参数,部署数千台 GPU
Gate News 信息,4月24日——小米大型语言模型团队负责人罗富莉在一场深入采访中披露,MiMo-V2-Pro 模型总计拥有 1 万亿参数,训练所需数千台 GPU。她指出,1T 规模代表达到性能接近 Claude Opus 4.6 水平并为下一阶段 AI 代理获取具有竞争力的入场券所需的最低门槛
GateNewsمنذ 1 س