輝达 260 亿布局开源 AI，Nemotron 3 Super 挑戰中国模型

Market Whisper

2026-03-13 07:01:28

辉达于周四正式发布了Nemotron 3 Super，这是一款拥有1,200亿个参数的开源权重AI模型，专为自主AI代理和超长上下文任务进行深度优化。辉达公布了在五年内投入260亿美元打造开源AI模型的战略计划，直接应对中国开源模型在全球市场的快速崛起。

Nemotron 3 Super的技术架构：三种罕见组件的深度融合

Nemotron 3 Super的设计核心是解决多智能体系统中的一个根本痛点——每次工具调用、推理步骤和上下文片段都需要从头重传大量数据，导致成本飙升、模型偏离预期。辉达将三个在同一架构中极少共同出现的组件整合在一起：

Mamba-2状态空间层（Mamba-2 State Space Layers）作为注意力机制的替代方案，在处理长词元流时速度更快、内存效率更高；Transformer注意力层用于确保精确的信息召回；全新的“潜在混合专家”（Latent MoE）设计在路由前压缩词元，使模型能够以相同计算成本启动四倍数量的专家模块。

模型采用辉达专有的NVFP4格式进行原生预训练，从第一次梯度更新起就在4位精度下学习，避免了先高精度训练后压缩带来的精度损失。上下文窗口达100万个词元，可完整存放代码库或约75万个英文词汇。

性能基准与企业应用

以下是Nemotron 3 Super在推理吞吐量方面的关键比较数据：

对比OpenAI GPT-OSS 120B：快2.2倍

对比阿里巴巴Qwen3.5-122B：快7.5倍

对比自身前代：整体吞吐量提升超过5倍

辉达完整公开了训练流程，包括Hugging Face上的模型权重、100,000亿个精选预训练样本（训练共使用超过250,000亿个样本）、4,000万个训练后样本，以及涵盖21种环境配置的强化学习方案。目前Perplexity、Palantir、Cadence和Siemens已将该模型整合至工作流程。

260亿美元的战略意图：应对中国开源模型的全球崛起

Nemotron 3 Super的发布只是辉达更大布局的一环。辉达应用深度学习研究副总裁Bryan Catanzaro告诉《连线》杂志，公司近期已完成一个拥有5,500亿参数的模型预训练，而五年260亿美元的开源AI投资计划也同步公布。

战略背景十分紧迫：根据OpenRouter和Andreessen Horowitz的研究，中国开源模型的全球使用率已从2024年底的1.2%急升至2025年底的约30%；阿里巴巴的Qwen已超越Meta的Llama，成为使用最广泛的自架开源模型（Runpod数据）。据报道，DeepSeek的下一代模型完全在华为芯片上训练，若属实，将为全球开发者提供采用中国硬件的强力诱因——这正是辉达最需要通过开源战略加以应对的局面。

常见问题

Nemotron 3 Super与Qwen和GPT-OSS相比有何优势？

在推理吞吐量方面，Nemotron 3 Super比OpenAI GPT-OSS 120B快2.2倍，比阿里巴巴Qwen3.5-122B快7.5倍。其核心差异在于混合Mamba-Transformer MoE架构，以及原生NVFP4 4位精度训练，使其在相同计算成本下能够启动更多专家模块，吞吐量较前代提升超过五倍。

辉达为何在此时投入260亿美元打造开源AI模型？

主要动机有二：一是防止中国开源模型生态与中国芯片形成闭环生态系统，削弱辉达在全球AI基础设施的核心地位；二是以针对辉达硬件优化的开源模型，为自身芯片创造更强的采购黏性。中国开源模型的全球市占率已从1.2%急升至约30%，时机的紧迫性高度明确。

Nemotron 3 Super的训练资料和模型权重是否完整公开？

是的，辉达在Hugging Face上公开了完整训练流程，包括：模型权重、100,000亿个精选预训练样本、4,000万个训练后样本，以及涵盖21种环境配置的强化学习方案，技术透明度高于大多数同类商业模型。

查看原文

免责声明：本页面信息可能来自第三方，不代表 Gate 的观点或意见。页面显示的内容仅供参考，不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证，对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为，价格波动剧烈，您可能损失全部投资本金。请充分了解相关风险，并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明。

0/400

暂无评论