輝达 260 亿布局开源 AI,Nemotron 3 Super 挑戰中国模型

Market Whisper

辉达发布Nemotron 3 Super

辉达于周四正式发布了Nemotron 3 Super,这是一款拥有1,200亿个参数的开源权重AI模型,专为自主AI代理和超长上下文任务进行深度优化。辉达公布了在五年内投入260亿美元打造开源AI模型的战略计划,直接应对中国开源模型在全球市场的快速崛起。

Nemotron 3 Super的技术架构:三种罕见组件的深度融合

Nemotron 3 Super的设计核心是解决多智能体系统中的一个根本痛点——每次工具调用、推理步骤和上下文片段都需要从头重传大量数据,导致成本飙升、模型偏离预期。辉达将三个在同一架构中极少共同出现的组件整合在一起:

Mamba-2状态空间层(Mamba-2 State Space Layers)作为注意力机制的替代方案,在处理长词元流时速度更快、内存效率更高;Transformer注意力层用于确保精确的信息召回;全新的“潜在混合专家”(Latent MoE)设计在路由前压缩词元,使模型能够以相同计算成本启动四倍数量的专家模块。

模型采用辉达专有的NVFP4格式进行原生预训练,从第一次梯度更新起就在4位精度下学习,避免了先高精度训练后压缩带来的精度损失。上下文窗口达100万个词元,可完整存放代码库或约75万个英文词汇。

性能基准与企业应用

以下是Nemotron 3 Super在推理吞吐量方面的关键比较数据:

对比OpenAI GPT-OSS 120B:快2.2倍

对比阿里巴巴Qwen3.5-122B:快7.5倍

对比自身前代:整体吞吐量提升超过5倍

辉达完整公开了训练流程,包括Hugging Face上的模型权重、100,000亿个精选预训练样本(训练共使用超过250,000亿个样本)、4,000万个训练后样本,以及涵盖21种环境配置的强化学习方案。目前Perplexity、Palantir、Cadence和Siemens已将该模型整合至工作流程。

260亿美元的战略意图:应对中国开源模型的全球崛起

Nemotron 3 Super的发布只是辉达更大布局的一环。辉达应用深度学习研究副总裁Bryan Catanzaro告诉《连线》杂志,公司近期已完成一个拥有5,500亿参数的模型预训练,而五年260亿美元的开源AI投资计划也同步公布。

战略背景十分紧迫:根据OpenRouter和Andreessen Horowitz的研究,中国开源模型的全球使用率已从2024年底的1.2%急升至2025年底的约30%;阿里巴巴的Qwen已超越Meta的Llama,成为使用最广泛的自架开源模型(Runpod数据)。据报道,DeepSeek的下一代模型完全在华为芯片上训练,若属实,将为全球开发者提供采用中国硬件的强力诱因——这正是辉达最需要通过开源战略加以应对的局面。

常见问题

Nemotron 3 Super与Qwen和GPT-OSS相比有何优势?

在推理吞吐量方面,Nemotron 3 Super比OpenAI GPT-OSS 120B快2.2倍,比阿里巴巴Qwen3.5-122B快7.5倍。其核心差异在于混合Mamba-Transformer MoE架构,以及原生NVFP4 4位精度训练,使其在相同计算成本下能够启动更多专家模块,吞吐量较前代提升超过五倍。

辉达为何在此时投入260亿美元打造开源AI模型?

主要动机有二:一是防止中国开源模型生态与中国芯片形成闭环生态系统,削弱辉达在全球AI基础设施的核心地位;二是以针对辉达硬件优化的开源模型,为自身芯片创造更强的采购黏性。中国开源模型的全球市占率已从1.2%急升至约30%,时机的紧迫性高度明确。

Nemotron 3 Super的训练资料和模型权重是否完整公开?

是的,辉达在Hugging Face上公开了完整训练流程,包括:模型权重、100,000亿个精选预训练样本、4,000万个训练后样本,以及涵盖21种环境配置的强化学习方案,技术透明度高于大多数同类商业模型。

查看原文
免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明
评论
0/400
暂无评论