輝達 260 億布局開源 AI,Nemotron 3 Super 挑戰中國模型

Market Whisper

輝達發布Nemotron 3 Super

輝達於週四正式發布 Nemotron 3 Super,這是一款擁有 1,200 億個總參數的開放權重 AI 模型,專為自主 AI 代理和超長上下文任務進行深度優化。輝達公布了在五年內投入 260 億美元打造開源 AI 模型的戰略計劃,直接回應中國開源模型在全球市場的快速崛起。

Nemotron 3 Super 的技術架構:三種罕見組件的深度融合

Nemotron 3 Super 的設計核心是解決多智能體系統中的一個根本痛點——每次工具呼叫、推理步驟和上下文片段都需要從頭重傳大量資料,導致成本飆升、模型偏離預期。輝達將三個在同一架構中極少共同出現的組件整合在一起:

Mamba-2 狀態空間層(Mamba-2 State Space Layers)作為注意力機制的替代方案,在處理長詞元流時速度更快、記憶體效率更高;Transformer 注意力層用於確保精確的資訊召回;全新的「潛在混合專家」(Latent MoE)設計在路由前壓縮詞元,使模型能夠以相同計算成本啟動四倍數量的專家模塊。

模型採用輝達專有的 NVFP4 格式進行原生預訓練,從第一次梯度更新起就在 4 位元精度下學習,避免了先高精度訓練後壓縮所帶來的精度損失。上下文窗口達 100 萬個詞元,可完整存放程式碼庫或約 75 萬個英文詞彙。

效能基準與企業應用

以下是 Nemotron 3 Super 在推理吞吐量方面的關鍵比較數據:

對比 OpenAI GPT-OSS 120B:快 2.2 倍

對比阿里巴巴 Qwen3.5-122B:快 7.5 倍

對比自身前代:整體吞吐量提升超過 5 倍

輝達完整公開了訓練流程,包括 Hugging Face 上的模型權重、100,000 億個精選預訓練樣本(訓練共使用超過 250,000 億個樣本)、4,000 萬個訓練後樣本,以及涵蓋 21 種環境配置的強化學習方案。目前 Perplexity、Palantir、Cadence 和 Siemens 已將該模型整合至工作流程。

260 億美元的戰略意圖:應對中國開源模型的全球崛起

Nemotron 3 Super 的發布只是輝達更大佈局的一環。輝達應用深度學習研究副總裁 Bryan Catanzaro 告訴《連線》雜誌,公司近期已完成一個擁有 5,500 億個參數的模型預訓練,而五年 260 億美元的開源 AI 投資計劃也同步公開。

戰略背景十分緊迫:根據 OpenRouter 和 Andreessen Horowitz 的研究,中國開源模型的全球使用率佔比已從 2024 年底的 1.2% 急升至 2025 年底的約 30%;阿里巴巴的 Qwen 已超越 Meta 的 Llama 成為使用最廣泛的自架開源模型(Runpod 數據)。DeepSeek 的下一代模型據報道完全在華為晶片上訓練,若屬實,將為全球開發者提供採用中國硬體的強力誘因——這正是輝達最需要透過開源戰略加以應對的局面。

常見問題

Nemotron 3 Super 與 Qwen 和 GPT-OSS 相比有何優勢?

在推理吞吐量方面,Nemotron 3 Super 比 OpenAI GPT-OSS 120B 快 2.2 倍,比阿里巴巴 Qwen3.5-122B 快 7.5 倍。其核心差異在於混合 Mamba-Transformer MoE 架構,以及原生 NVFP4 4 位元精度訓練,使其在相同計算成本下能夠啟動更多專家模塊,吞吐量較前代提升超過五倍。

輝達為何在此時投入 260 億美元打造開源 AI 模型?

主要動機有二:一是防止中國開源模型生態與中國晶片形成閉環生態系統,削弱輝達在全球 AI 基礎設施的核心地位;二是以針對輝達硬體優化的開源模型,為自身晶片創造更強的採購黏性。中國開源模型全球市佔率已從 1.2% 急升至約 30%,時機的緊迫性高度明確。

Nemotron 3 Super 的訓練資料和模型權重是否完整公開?

是的,輝達在 Hugging Face 上公開了完整訓練流程,包括:模型權重、100,000 億個精選預訓練樣本、4,000 萬個訓練後樣本,以及涵蓋 21 種環境配置的強化學習方案,技術透明度高於大多數同類型商業模型。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言