DeepSeek 发布 V4 开源模型系列:1.6T 参数与 MIT 许可

Gate News 消息,4 月 24 日——DeepSeek 已在 MIT 授权下发布 V4 系列开源模型,权重现已在 Hugging Face 和 ModelScope 上提供。该系列包含两个 (MoE) 混合专家(Mixture-of-Experts)模型:V4-Pro 总参数 1.6 万亿、每 token 激活 49 亿,以及 V4-Flash 总参数 2840 亿、每 token 激活 13 亿。两者都支持 100 万 token 的上下文窗口。

该架构包含三项关键升级:混合注意力机制,将压缩稀疏注意力 (CSA) 与高度压缩注意力 (HCA) 结合,大幅降低长上下文开销——V4-Pro 在 100 万上下文下的推理 FLOPs 仅为 V3.2 的 27%,用于推理过程中存储历史信息的 KV cache (VRAM) 也仅为 V3.2 的 10%;用流形约束超连接 (mHC) 替代传统残差连接,以增强跨层信号传播稳定性;以及用于更快训练收敛的 Muon 优化器。预训练使用了超过 32 万亿个 token 的数据。

后训练采用两阶段策略:首先通过监督微调 (SFT) 和基于 GRPO 的强化学习训练领域专属专家,然后通过在线蒸馏将它们合并为单一模型。V4-Pro-Max (最高推理模式) 宣称是最强的开源模型,拥有顶级编码基准,并在推理与智能体任务上显著缩小了与闭源前沿模型之间的差距。V4-Flash-Max 在足够的计算预算下达到 Pro 级推理性能,但在纯知识与复杂智能体任务上会受限于参数规模。权重以混合 FP4+FP8 精度存储。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

川普政府公布打擊 AI 提煉計劃,控中企系統性竊取模型能力

白宮科技政策辦公室(OSTP)總統助理邁克爾·J·克拉齊奧斯(Michael J. Kratsios)於 4 月 23 日發表官方聲明,表示川普政府掌握信息,顯示外國實體(主要位於中國)正在蓄意針對美國大型人工智慧公司,透過「數萬個代理帳戶」及越獄技術系統性提取美國 AI 模型能力,並同步公布四項應對措施。

Market Whisper7分鐘前

DeepSeek 推出 V4 開源預覽版,技術評分 3206 超越 GPT-5.4

DeepSeek 於 4 月 24 日正式推出 V4 預覽版系列,以 MIT 許可協議開源,模型權重已同步上線 Hugging Face 及 ModelScope。根據 DeepSeek V4 技術報告,V4-Pro-Max(最高推理力度模式)在 Codeforces 基準取得 3206 分,超越 GPT-5.4。

Market Whisper23分鐘前

寒武紀完成 DeepSeek-V4 的第 0 天適配,為中國 AI 晶片生態系樹立里程碑

Gate News 訊息,4 月 24 日——寒武紀(Cambricon)今天宣布,已使用其專有 NeuWare 軟體生態系與 vLLM 框架完成 DeepSeek-V4 的第 0 天(Day 0)適配。DeepSeek-V4 是 DeepSeek 最新的大型語言模型。適配程式碼同時開源,標誌著

GateNews39分鐘前

騰訊開源 Hy3 預覽版,程式碼基準測試較前代提升 40%

騰訊於 4 月 23 日在 GitHub、Hugging Face 及 ModelScope 平台正式開源 Hy3 預覽版大型語言模型,並同步於騰訊雲端(Tencent Cloud)提供付費 API 服務。據 Decrypt 於 4 月 24 日報導,Hy3 預覽版自 1 月下旬啟動訓練,至發布日歷時不足三個月。

Market Whisper46分鐘前

如果未破產,FTX 投資組合價值 158 兆韓元

FTX 這家集中式加密貨幣交易所因流動性短缺與資金外流,於 2022 年 11 月申請第 11 章破產保護;根據 Park 引用的分析,如果它沒有倒閉,本應持有約 158.796 兆韓元的投資價值。

Crypto Frontier49分鐘前

小米揭露 MiMo-V2-Pro 訓練細節:1T 模型參數,部署數千台 GPU

Gate 新聞訊息,4 月 24 日——小米大型語言模型團隊負責人 羅福立 在一場深入採訪中披露,MiMo-V2-Pro 模型總計擁有 1 兆(trillion)參數,訓練過程需要數千台 GPU。她指出,1T 規模代表達成性能接近 Claude Opus 4.6 等級所需的最低門檻,並取得下一階段 AI 代理的競爭性入場票。

GateNews1小時前
留言
0/400
暫無留言