谷歌发布TurboQuant算法:3 bit量化KV缓存无精度损失,推理速度最高提升8倍

GateNews

Gate News 消息,3月25日,谷歌研究院发布量化压缩算法TurboQuant,可将大语言模型的KV缓存压缩至3 bit,内存占用缩减至少6倍,无需训练或微调,不损失模型精度。在4 bit模式下,于英伟达H100 GPU上计算注意力的速度较32 bit未量化基线提升最高8倍。研究团队在LongBench、Needle In A Haystack、ZeroSCROLLS等长上下文基准上使用Gemma和Mistral模型进行验证,TurboQuant在所有测试中均达到最优表现。该算法由两个子算法组成:PolarQuant通过极坐标变换消除传统量化方法的内存开销,QJL仅用1 bit校正残余误差。该研究由谷歌研究院Amir Zandieh和副总裁兼Google Fellow Vahab Mirrokni主导,与韩国KAIST和纽约大学合作完成,将在ICLR 2026上发表。谷歌表示该技术的主要应用之一是解决Gemini等模型的KV缓存瓶颈。

免责声明:本页面信息可能来自第三方,不代表 Gate 的观点或意见。页面显示的内容仅供参考,不构成任何财务、投资或法律建议。Gate 对信息的准确性、完整性不作保证,对因使用本信息而产生的任何损失不承担责任。虚拟资产投资属高风险行为,价格波动剧烈,您可能损失全部投资本金。请充分了解相关风险,并根据自身财务状况和风险承受能力谨慎决策。具体内容详见声明

相关文章

野村证券调查:八成机构投资者计划以 2% 至 5% AUM 配置加密资产

野村证券(Nomura)及其加密货币子公司 Laser Digital 的 2026 年数字资产机构投资者调查显示,近五分之四的受访机构投资者计划将其管理资产总额(AUM)的 2% 至 5% 配置入加密货币市场,多数机构表示计划在未来一年内进行,而非立即投资。

Market Whisper5小时前

野村调查:80%的机构投资者愿意将2-5%配置给加密货币

一项野村(Nomura)调查显示,80%的机构投资者计划将2-5%的资金投向加密货币,并偏好质押(staking)和借贷(lending)等收益策略。监管清晰度和风险管理是提升机构对数字资产兴趣的关键因素。

GateNews13小时前

Stablecoin Market Hits $322B ATH, Q1 2026 Trading Volume Reaches $8.3 Trillion

The stablecoin market experienced significant growth, surging $2.25 billion to reach $322 billion, despite a broader crypto market contraction. USDC saw a substantial supply increase, while USDT maintained its market share. Yield-bearing stablecoins contributed notably to this growth, with transaction activity hitting an all-time high.

GateNews13小时前

以太坊基金会公布 ETH Rangers 项目成果:已追回或冻结超 5.8M 美元资产

以太坊基金会的 ETH Rangers 项目已成功完成,资助 17 名研究人员以提升生态系统中的公共安全。成果包括追回 5.8M 美元资产、识别 785+ 项漏洞,并开发多款安全工具。

GateNews18小时前

2025年市场下行期间顶级加密VC管理资产大幅下滑

在2025年加密市场下行期间,主要风险投资机构的管理资产(AUM)出现显著下滑,但Haun Ventures的规模增长了30%。Paradigm和a16z正在为新基金募资超过$4.2 billion,这也凸显了各机构之间表现的差异。

GateNews21小时前
评论
0/400
暂无评论