輝達 260 億布局開源 AI，Nemotron 3 Super 挑戰中國模型

Market Whisper

2026-03-13 07:01:28

輝達於週四正式發布 Nemotron 3 Super，這是一款擁有 1,200 億個總參數的開放權重 AI 模型，專為自主 AI 代理和超長上下文任務進行深度優化。輝達公布了在五年內投入 260 億美元打造開源 AI 模型的戰略計劃，直接回應中國開源模型在全球市場的快速崛起。

Nemotron 3 Super 的技術架構：三種罕見組件的深度融合

Nemotron 3 Super 的設計核心是解決多智能體系統中的一個根本痛點——每次工具呼叫、推理步驟和上下文片段都需要從頭重傳大量資料，導致成本飆升、模型偏離預期。輝達將三個在同一架構中極少共同出現的組件整合在一起：

Mamba-2 狀態空間層（Mamba-2 State Space Layers）作為注意力機制的替代方案，在處理長詞元流時速度更快、記憶體效率更高；Transformer 注意力層用於確保精確的資訊召回；全新的「潛在混合專家」（Latent MoE）設計在路由前壓縮詞元，使模型能夠以相同計算成本啟動四倍數量的專家模塊。

模型採用輝達專有的 NVFP4 格式進行原生預訓練，從第一次梯度更新起就在 4 位元精度下學習，避免了先高精度訓練後壓縮所帶來的精度損失。上下文窗口達 100 萬個詞元，可完整存放程式碼庫或約 75 萬個英文詞彙。

效能基準與企業應用

以下是 Nemotron 3 Super 在推理吞吐量方面的關鍵比較數據：

對比 OpenAI GPT-OSS 120B：快 2.2 倍

對比阿里巴巴 Qwen3.5-122B：快 7.5 倍

對比自身前代：整體吞吐量提升超過 5 倍

輝達完整公開了訓練流程，包括 Hugging Face 上的模型權重、100,000 億個精選預訓練樣本（訓練共使用超過 250,000 億個樣本）、4,000 萬個訓練後樣本，以及涵蓋 21 種環境配置的強化學習方案。目前 Perplexity、Palantir、Cadence 和 Siemens 已將該模型整合至工作流程。

260 億美元的戰略意圖：應對中國開源模型的全球崛起

Nemotron 3 Super 的發布只是輝達更大佈局的一環。輝達應用深度學習研究副總裁 Bryan Catanzaro 告訴《連線》雜誌，公司近期已完成一個擁有 5,500 億個參數的模型預訓練，而五年 260 億美元的開源 AI 投資計劃也同步公開。

戰略背景十分緊迫：根據 OpenRouter 和 Andreessen Horowitz 的研究，中國開源模型的全球使用率佔比已從 2024 年底的 1.2% 急升至 2025 年底的約 30%；阿里巴巴的 Qwen 已超越 Meta 的 Llama 成為使用最廣泛的自架開源模型（Runpod 數據）。DeepSeek 的下一代模型據報道完全在華為晶片上訓練，若屬實，將為全球開發者提供採用中國硬體的強力誘因——這正是輝達最需要透過開源戰略加以應對的局面。

常見問題

Nemotron 3 Super 與 Qwen 和 GPT-OSS 相比有何優勢？

在推理吞吐量方面，Nemotron 3 Super 比 OpenAI GPT-OSS 120B 快 2.2 倍，比阿里巴巴 Qwen3.5-122B 快 7.5 倍。其核心差異在於混合 Mamba-Transformer MoE 架構，以及原生 NVFP4 4 位元精度訓練，使其在相同計算成本下能夠啟動更多專家模塊，吞吐量較前代提升超過五倍。

輝達為何在此時投入 260 億美元打造開源 AI 模型？

主要動機有二：一是防止中國開源模型生態與中國晶片形成閉環生態系統，削弱輝達在全球 AI 基礎設施的核心地位；二是以針對輝達硬體優化的開源模型，為自身晶片創造更強的採購黏性。中國開源模型全球市佔率已從 1.2% 急升至約 30%，時機的緊迫性高度明確。

Nemotron 3 Super 的訓練資料和模型權重是否完整公開？

是的，輝達在 Hugging Face 上公開了完整訓練流程，包括：模型權重、100,000 億個精選預訓練樣本、4,000 萬個訓練後樣本，以及涵蓋 21 種環境配置的強化學習方案，技術透明度高於大多數同類型商業模型。

免責聲明：本頁面資訊可能來自第三方，不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考，不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證，對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為，價格波動劇烈，您可能損失全部投資本金。請充分了解相關風險，並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明。

留言

0/400

暫無留言