在辉达 GTC 2026 上,最受关注的不只是 Vera Rubin NVL72,更是与 Groq 3 LPX 搭配所形成的全新推理模式。AI 基础设施正从单一 GPU 主导的运算模式,转向以分工为核心的异质化架构。
Groq 3 LPX 被定位为专门处理低延迟推理的加速器,与 Rubin GPU 形成互补关系。在传统架构中,GPU 必须同时负责处理长上下文输入与逐 token 生成,随着模型规模与上下文长度快速扩张,这种一体化设计逐渐出现效率瓶颈。
NVIDIA 因此将推理流程拆解,让 Rubin GPU 专注于高吞吐的前处理与注意力计算,而 LPX 则负责最依赖即时反应的解码阶段,特别是前馈神经网络与 MoE 专家运算。辉达去年以约 200 亿美元现金,取得 Groq 就是这个原因。Groq 主打专为 AI 推理设计的 LPU(Language Processing Unit)架构,极低延迟、稳定响应时间与高能效,特别适用于即时对话、语音助手等场景。
(辉达史上最大并购案:斥资 6400 亿取得 Groq 技术与 Google TPU 之父)
GPU 协作 LPU 把推理拆开来做
这种被称为「Disaggregated Inference」的设计,使推理过程不再由单一处理器完成,而是通过 GPU 与 LPU 之间的协同运作来完成。
实际运行时,模型会先在 GPU 上建立上下文与 KV cache,随后在每一个 token 的生成循环中,由 GPU 处理 attention,再将中间结果交由 LPX 执行 FFN 计算,最后回传 GPU 组合输出。这种分工模式让不同运算单元各自处理最擅长的部分,大幅提升整体效率。
辉达收购 Groq 将其 LPU 应用于 LPX
LPX 的核心在于其 LPU 架构。不同于 GPU 依赖动态调度与高频宽外部存储器,LPU 采用强调可预见性的设计,通过编译器直接控制运算与数据流,降低延迟波动。其 SRAM-first 架构让关键资料尽可能停留在芯片内部,减少存储器存取带来的不确定性,使每个 token 的生成时间更加稳定。这种特性对于即时互动型 AI 应用至关重要,因为延迟直接影响用户体验的产品特性。
LPX 机柜规格公开,由 256 颗 LPU 组成
在硬件规模上,一个 LPX 机柜由 256 颗 LPU 组成,具备极高的片上存储器频宽与芯片间通讯能力,专为低延迟推理设计。与 Rubin GPU 的高 FLOPS 与大容量存储器形成对比,LPX 更像是一个专门为「最后一哩路」优化的引擎,负责将模型输出转化为即时可用的结果。
这篇文章 NVIDIA GTC 2026|解析辉达百亿并购 Groq 战略,LPX 如何改变推理进程 最早出现在 链新闻 ABMedia。