
辉达于周四正式发布了Nemotron 3 Super,这是一款拥有1,200亿个参数的开源权重AI模型,专为自主AI代理和超长上下文任务进行深度优化。辉达公布了在五年内投入260亿美元打造开源AI模型的战略计划,直接应对中国开源模型在全球市场的快速崛起。
Nemotron 3 Super的设计核心是解决多智能体系统中的一个根本痛点——每次工具调用、推理步骤和上下文片段都需要从头重传大量数据,导致成本飙升、模型偏离预期。辉达将三个在同一架构中极少共同出现的组件整合在一起:
Mamba-2状态空间层(Mamba-2 State Space Layers)作为注意力机制的替代方案,在处理长词元流时速度更快、内存效率更高;Transformer注意力层用于确保精确的信息召回;全新的“潜在混合专家”(Latent MoE)设计在路由前压缩词元,使模型能够以相同计算成本启动四倍数量的专家模块。
模型采用辉达专有的NVFP4格式进行原生预训练,从第一次梯度更新起就在4位精度下学习,避免了先高精度训练后压缩带来的精度损失。上下文窗口达100万个词元,可完整存放代码库或约75万个英文词汇。
以下是Nemotron 3 Super在推理吞吐量方面的关键比较数据:
对比OpenAI GPT-OSS 120B:快2.2倍
对比阿里巴巴Qwen3.5-122B:快7.5倍
对比自身前代:整体吞吐量提升超过5倍
辉达完整公开了训练流程,包括Hugging Face上的模型权重、100,000亿个精选预训练样本(训练共使用超过250,000亿个样本)、4,000万个训练后样本,以及涵盖21种环境配置的强化学习方案。目前Perplexity、Palantir、Cadence和Siemens已将该模型整合至工作流程。
Nemotron 3 Super的发布只是辉达更大布局的一环。辉达应用深度学习研究副总裁Bryan Catanzaro告诉《连线》杂志,公司近期已完成一个拥有5,500亿参数的模型预训练,而五年260亿美元的开源AI投资计划也同步公布。
战略背景十分紧迫:根据OpenRouter和Andreessen Horowitz的研究,中国开源模型的全球使用率已从2024年底的1.2%急升至2025年底的约30%;阿里巴巴的Qwen已超越Meta的Llama,成为使用最广泛的自架开源模型(Runpod数据)。据报道,DeepSeek的下一代模型完全在华为芯片上训练,若属实,将为全球开发者提供采用中国硬件的强力诱因——这正是辉达最需要通过开源战略加以应对的局面。
在推理吞吐量方面,Nemotron 3 Super比OpenAI GPT-OSS 120B快2.2倍,比阿里巴巴Qwen3.5-122B快7.5倍。其核心差异在于混合Mamba-Transformer MoE架构,以及原生NVFP4 4位精度训练,使其在相同计算成本下能够启动更多专家模块,吞吐量较前代提升超过五倍。
主要动机有二:一是防止中国开源模型生态与中国芯片形成闭环生态系统,削弱辉达在全球AI基础设施的核心地位;二是以针对辉达硬件优化的开源模型,为自身芯片创造更强的采购黏性。中国开源模型的全球市占率已从1.2%急升至约30%,时机的紧迫性高度明确。
是的,辉达在Hugging Face上公开了完整训练流程,包括:模型权重、100,000亿个精选预训练样本、4,000万个训练后样本,以及涵盖21种环境配置的强化学习方案,技术透明度高于大多数同类商业模型。