Oumi这家初创公司的一项研究发现,Google Gemini这款ИИ-помощник在日常模式下会生成数百万条事实性错误。根据分析,每十个回答中就包含不准确之处;而在Google一年约五万亿次请求的规模下,这将导致每小时超过57,000,000个错误回答,几乎相当于每分钟接近1,000,000条。



Gemini精确度问题的规模
Oumi这家初创公司使用SimpleQA基准测试对Google AI Overviews进行了测试,该基准包含4,326个查询。2025年10月,当针对复杂问题采用Gemini 2模型时,准确率为85%。2026年2月,在升级到Gemini 3之后,该指标提升至91%。因此,尽管有所改善,每十个回答中仍有一个保持错误。

在每年处理约五万亿次请求的规模下,即便这种精确度也意味着大量不准确信息的持续涌入。用户每小时会收到数千万条错误回答——这相当于每分钟出现数十万次错误。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论