Gemini 3.1 Flash-Lite正式發布:輸入價只有Claude 4.5 Haiku四分之一,GPQA高出近14個百分點

據動察 Beating 監測,谷歌 Gemini 3.1 Flash-Lite 從 3 月的預覽轉為正式版(GA),這是 Gemini 3 系列中最便宜最快的模型,正式進入高並發生產環境就緒狀態。模型標配 thinking 四檔推理強度控制(minimal、low、medium、high),用戶可按場景在速度和質量之間調節。

定價維持預覽水平:輸入 0.25 美元/百萬 token,輸出 1.50 美元/百萬 token。對比同檔位競品,輸入價是 Claude 4.5 Haiku 的四分之一(0.25 vs 1.00 美元),輸出價不到三分之一(1.50 vs 5.00 美元);比自家上一代 2.5 Flash 也便宜,輸入從 0.30 降到 0.25,輸出從 2.50 降到 1.50。上下文窗口 100 萬 token。

性能跨級別:GPQA Diamond(研究生級科學推理)86.9%,超過 Claude 4.5 Haiku 的 73.0% 和 GPT-5 mini 的 82.3%;MMMU-Pro(多模態理解推理)76.8%,同樣領先同檔位對手。輸出速度 363 tokens/s,比 2.5 Flash 快 45%,首 token 響應速度快 2.5 倍。Arena.ai 排行榜 Elo 得分 1432。

已有多家企業在生產環境中使用。客服平台 Gladly 用 Flash-Lite 驅動文本渠道 AI agent,每週處理數百萬次客戶交互,成本比同等思考級別模型低約 60%,p95 延遲約 1.8 秒,成功率 99.6%。JetBrains 用它驅動 IDE AI 助手和 Junie agent。金融操作平台 Ramp 將其用於高頻延遲敏感場景。

編程是 Flash-Lite 相對短板,LiveCodeBench 72.0% 落後於 GPT-5 mini 的 80.4%。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 回覆
  • 轉發
  • 分享
回覆
請輸入回覆內容
請輸入回覆內容
暫無回覆