DeepSeek V4-Pro 以比 GPT-5.5 Pro 低 98% 的成本推出

Crypto Frontier

DeepSeek 於 2026 年 4 月 24 日釋出 DeepSeek-V4-Pro 與 DeepSeek-V4-Flash 的預覽版本,兩者皆為開放權重模型,具備一百萬 token 的上下文視窗,且定價顯著低於可比的西方替代方案。根據該公司官方規格,V4-Pro 模型的每一百萬輸入 token 成本為 $1.74、每一百萬輸出 token 成本為 $3.48——約為 Claude Opus 4.7 價格的 1/20,且比 GPT-5.5 Pro 低 98%。

模型架構與規模

DeepSeek-V4-Pro 具備 1.6 兆(trillion)個總參數,使其成為截至目前 LLM 市場中最大的開源模型。然而,每次推論傳遞僅啟用 490 億(49 billion)個參數,使用 DeepSeek 所稱的「混合專家(Mixture-of-Experts)」做法,該設計自 V3 以來已被精煉。此設計讓整個模型可保持大部分休眠狀態,而僅在針對任一給定請求時啟用相關切片,降低運算成本,同時維持知識容量。

DeepSeek-V4-Flash 的規模較小,總參數 2840 億(284 billion),啟用參數 130 億(13 billion)。根據 DeepSeek 的基準測試,它「在給予更大的思考預算(thinking budget)時,達到與 Pro 版本相當的推理表現」。

兩個模型都支援一百萬 token 的上下文作為標準功能——約為 750,000 個字詞(words),或大致涵蓋整部「指環王」三部曲(Lord of the Rings)再加上一些額外文本。

技術創新:大規模注意力機制

DeepSeek 透過發明兩種新的注意力類型,解決長上下文處理所固有的計算擴展問題;這些內容如該公司技術論文所述,論文已在 GitHub 上提供。

標準的 AI 注意力機制面臨一個殘酷的擴展問題:每當上下文長度加倍,計算成本就會大約增加四倍。DeepSeek 的解法包含兩種互補的做法:

壓縮稀疏注意力(Compressed Sparse Attention) 分兩步驟運作。它首先把 token 的群組進行壓縮——例如,每 4 個 token 壓縮成一個條目。接著,並非對所有壓縮後的條目進行注意力,而是使用「Lightning Indexer」為任一給定查詢只選擇最相關的結果。這會將模型的注意力範圍,從一百萬 token 降到一個更小的、重要片段(chunks)集合。

高度壓縮注意力(Heavily Compressed Attention) 採取更激進的策略:不經過稀疏選擇,將每 128 個 token 摺疊成一個條目。雖然這會損失細緻的資訊,但它提供了極其便宜的全域視角。兩種注意力類型在交替的層(layers)中運行,使模型能同時保留細節與概覽。

Attention mechanism comparison chart

結果是:V4-Pro 使用了其前代模型 (V3.2) 所需運算量的 27%。KV cache——追蹤上下文所需的記憶體——降至 V3.2 的 10%。V4-Flash 進一步提升效率:相較於 V3.2,運算量為 10%、記憶體為 7%。

基準性能與競爭態勢

DeepSeek 發布了針對 GPT-5.4 與 Gemini-3.1-Pro 的完整基準測試比較,其中包含 V4-Pro 落後競爭者的領域。根據 DeepSeek 的技術報告,在推理任務上,V4-Pro 的推理表現相較 GPT-5.4 與 Gemini-3.1-Pro 落後約三到六個月。

V4-Pro 的強項:

  • Codeforces (競技程式設計):V4-Pro 得分 3,206,位於所有真實人類賽事參賽者中的約第 23 名
  • Apex Shortlist (精選數學與 STEM 題目):通過率 90.2%,對比 Opus 4.6 的 85.9% 與 GPT-5.4 的 78.1%
  • SWE-Verified (GitHub issue 解決):80.6%,與 Claude Opus 4.6 的 4.6 相符

V4-Pro 的弱項:

  • MMLU-Pro (多任務):Gemini-3.1-Pro 為 91.0%,而 V4-Pro 為 87.5%
  • GPQA Diamond (專家知識):Gemini 為 94.3,而 V4-Pro 為 90.1
  • Humanity’s Last Exam (研究生級別):Gemini-3.1-Pro 為 44.4%,而 V4-Pro 為 37.7%

在長上下文任務上,V4-Pro 在開源模型中領先,且在 CorpusQA (模擬真實文件分析(一百萬 token)) 上擊敗 Gemini-3.1-Pro,但在 MRCR 上落後於 Claude Opus 4.6;MRCR 用於衡量從深藏於長文本中的特定資訊進行檢索。

Agentic 與程式能力

V4-Pro 可以在 Claude Code、OpenCode 以及其他 AI 程式工具上運行。根據 DeepSeek 對使用 V4-Pro 作為其主要程式代理(coding agent)的 85 位開發者所做的內部調查,52% 表示它已準備好成為他們的預設模型,39% 傾向於「是」,而少於 9% 表示「否」。DeepSeek 的內部測試顯示,V4-Pro 在 agentic 程式編碼任務上表現優於 Claude Sonnet,並接近 Claude Opus 4.5。

Artificial Analysis 在 GDPval-AA 上將 V4-Pro 排在所有開放權重模型的第一名;GDPval-AA 是一項在財務、法律與研究任務中,測試具有經濟價值知識工作的基準。V4-Pro-Max 的 Elo 為 1,554,領先於 GLM-5.1 (1,535) 與 MiniMax 的 M2.7 (1,514)。Claude Opus 4.6 在同一基準測試中的分數為 1,619。

GDPval-AA benchmark ranking chart

V4 引入「交錯式思考(interleaved thinking)」,能在工具呼叫(tool calls)之間保留完整的思考鏈(chain of thought)。在先前的模型中,當代理進行多次工具呼叫——例如搜尋網路、執行程式、再搜尋——模型的推理上下文會在回合之間被清空。V4 會在各步之間維持推理連續性,避免在複雜的自動化工作流程中發生上下文遺失。

競爭格局與定價背景

V4 的發布正值 AI 領域出現重大動態。Anthropic 於 2026 年 4 月 16 日推出 Claude Opus 4.7。OpenAI 的 GPT-5.5 於 2026 年 4 月 23 日上線,GPT-5.5 Pro 的定價為 $30 每百萬輸入 token$180 與 (每百萬輸出 token)。在 Terminal Bench 2.0 (82.7% versus 70.0%) 上,GPT-5.5 比 V4-Pro 表現更好;該測試會檢驗複雜的命令列代理(command-line agent)工作流程。

小米於 2026 年 4 月 22 日釋出 MiMo V2.5 Pro,提供完整的多模態能力 $1 image, audio, video$3 ,其每百萬 token 的 (input 與 )output 定價分別為 。Tencent 於 GPT-5.5 同一天釋出了 Hy3。

就定價觀點而言:Cline CEO Saoud Rizwan 指出,若 Uber 使用 DeepSeek 而不是 Claude,其 2026 年的 AI 預算——據報足夠使用四個月——本來可延續七年。

![Pricing comparison and Uber budget analysis]https://img-cdn.gateio.im/social/moments-0ee5a4bf95-cbc5686e31-8b7abd-badf29

部署與可用性

V4-Pro 與 V4-Flash 皆採 MIT 授權,並可在 Hugging Face 上取得。這兩個模型目前僅支援文字(text-only);DeepSeek 表示正在開發多模態能力。兩個模型都可在本地硬體上免費執行,或可依公司需求進行客製化。

DeepSeek 既有的 deepseek-chat 與 deepseek-reasoner 端點已分別在非思考(non-thinking)與思考(thinking)模式下路由到 V4-Flash。先前的 deepseek-chat 與 deepseek-reasoner 端點將於 2026 年 7 月 24 日退役。

DeepSeek 訓練 V4 的部分內容使用了 Huawei Ascend 晶片,因而繞過了美國的出口限制。該公司表示,一旦 950 個新的超級節點(supernodes)在 2026 年下半年上線,Pro 模型那已經相當低的價格還會進一步下調。

實務影響

對於企業而言,定價結構可能會改變成本效益計算。以每一百萬輸入 token 價格 $1.74 的開源基準領先模型,讓大規模文件處理、法律審查以及程式碼生成管線,相較於六個月前要便宜得多。一百萬 token 的上下文使得整個程式碼庫(codebases)或法規申報文件能在單一請求中處理,而不必切分成多次呼叫。

對於開發者與獨立創建者而言,V4-Flash 是主要考量。以每百萬 token $0.14 的輸入與 $0.28 的輸出計價,它比一年前被視為預算選項(budget options)的模型更便宜,同時還能處理多數 V4-Pro 版本能完成的任務。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
APR Daydreamvip
· 4小時前
希望官方給一個可審計的行動日誌/回放機制,不然出了問題很難追責,尤其是自動操作資產類帳戶。
查看原文回復0
PaperHandsProvip
· 4小時前
現實應用中的“理解意圖”才是難點,希望別再出現你想訂機票它去改你簡歷的尷尬。
查看原文回復0
半剖多肉vip
· 4小時前
有點期待,也有點怕:能點鼠標就等於能做很多“人類點擊”才能做的事,風控和反作弊得升級。
查看原文回復0
柚子味的冷静vip
· 4小時前
這波對 Web3 也有影響吧,自動化鏈上操作、簽名流程、錢包交互要是能無縫做,產品形態會變。
查看原文回復0
玻璃穹顶里的星vip
· 4小時前
API 和價格先別急,先看看它在複雜桌面環境裡能不能抗彈窗、抗多窗口、抗網路抖動。
查看原文回復0
GateUser-b665e41cvip
· 4小時前
感覺從“能說會寫”進化到“能做能交付”,下一步就是給它更好的記憶和任務管理了。
查看原文回復0
Lint Collectorvip
· 4小時前
如果真能跨應用串聯:瀏覽器查資料→Excel 處理→PPT 出稿→郵箱發送,那就是辦公全鏈路閉環。
查看原文回復0
DegenWithNotebookvip
· 4小時前
終於在桌面原生操作了?這下真要當“數字實習生”了。
查看原文回復0