
DeepSeek 於 4 月 24 日正式推出 V4 預覽版系列,以 MIT 許可協議開源,模型權重已同步上線 Hugging Face 及 ModelScope。根據 DeepSeek V4 技術報告,V4-Pro-Max(最高推理力度模式)在 Codeforces 基準取得 3206 分,超越 GPT-5.4。
根據 DeepSeek V4 技術報告,V4 系列包含兩款混合專家(MoE)模型:
V4-Pro:總參數 1.6T,每 token 激活 49B,支援 1M token 上下文
V4-Flash:總參數 284B,每 token 激活 13B,同樣支援 1M token 上下文
根據技術報告,V4-Pro 在 1M 上下文下的單 token 推理 FLOPs 僅為 V3.2 的 27%,KV 緩存降至 V3.2 的 10%,主要得益於混合注意力機制(壓縮稀疏注意力 CSA + 重度壓縮注意力 HCA)的架構升級。預訓練數據規模超過 32T token;訓練優化器更新為 Muon。
根據 DeepSeek V4 技術報告,V4 後訓練的核心更新在於以在線策略蒸餾(On-Policy Distillation,OPD)完全取代 V3.2 的混合強化學習(mixed RL)階段。新流程分為兩步:首先針對數學、程式碼、Agent 及指令跟隨等領域分別訓練領域專家(SFT + GRPO 強化學習);隨後以多教師 OPD 將十餘個專家的能力蒸餾至統一模型,透過 logit 對齊避免傳統方法中常見的能力衝突。
報告同時引入生成式獎勵模型(Generative Reward Model,GRM),針對難以用規則驗證的任務,以少量多樣化人工標注數據訓練,讓模型同時承擔生成與評估功能。
根據 DeepSeek V4 技術報告,V4-Pro-Max 與 Opus 4.6 Max、GPT-5.4 xHigh 及 Gemini 3.1 Pro High 的對比結果(不含近期發布的 GPT-5.5 及 Opus 4.7):
Codeforces:3206(GPT-5.4:3168 / Gemini 3.1 Pro:3052)→ 全場最高
LiveCodeBench:93.5 → 全場最高
SWE Verified:80.6,落後 Opus 4.6 的 80.8 差 0.2 個百分點
GPQA Diamond:90.1,落後 Gemini 3.1 Pro 的 94.3
SimpleQA-Verified:57.9,落後 Gemini 3.1 Pro 的 75.6
HLE:37.7,落後 Gemini 3.1 Pro 的 44.4
技術報告同時指出,上述對比不含最近發布的 GPT-5.5 及 Opus 4.7,V4 與最新一代閉源模型的差距有待第三方評測驗證。
根據 DeepSeek 4 月 24 日的官方公告,V4 系列以 MIT 許可協議開源,模型權重已上線 Hugging Face 及 ModelScope,適用於商業與學術用途。
根據 DeepSeek V4 技術報告,V4-Pro 總參數為 1.6T,每 token 激活 49B;V4-Flash 總參數為 284B,每 token 激活 13B,兩款均支援 1M token 上下文。
根據 DeepSeek V4 技術報告,V4-Pro-Max 在 Codeforces(3206 分)及 LiveCodeBench(93.5)兩項基準超越 GPT-5.4 及 Gemini 3.1 Pro,但在知識密集型基準(GPQA Diamond、SimpleQA-Verified、HLE)上仍落後 Gemini 3.1 Pro;比較組不含 GPT-5.5 及 Opus 4.7。
相關文章