Google 的 Gemini 3 Deep Think 大升級:推理能力碾壓 Opus 4.6、GPT-5.2,要做「最會科研的 AI」

動區BlockTempo
BTC2.59%

Google 發布 Gemini 3 Deep Think 重大更新,在 ARC-AGI-2 測試中以 84.6% 大幅超越 Claude Opus 4.6(68.8%)和 GPT-5.2(52.9%),同時在 Codeforces 達到「傳奇宗師」等級。
(前情提要:ChatGPT 學習模式問世:家教的黃昏,還是黃金教育時代的黎明?)
(背景補充:Google 正式推出「Gemini 3」!登頂全球最聰明 AI 模型,有什麼亮點?)

本文目錄

  • 不只會考試,還會抓人類的錯
  • 市場份額的地殼變動
  • 對加密產業的漣漪效應
  • 科學決勝局才剛開始

Google 今(13)日發布了 Gemini 3 Deep Think 的重大升級。在 ARC-AGI-2(一個專門防止 AI 背題庫的推理測試,不考你知道多少,考你能不能從幾個範例中自己歸納出規則)測試中,Gemini 3 Deep Think 拿下了 84.6%。

作為參照,Claude Opus 4.6(Thinking Max 模式)拿到 68.8%,GPT-5.2(Thinking xhigh 模式)是 52.9%,而人類平均約 60%。

更驚人的是,在原版 ARC-AGI-1 上,Deep Think 拿到 96%,基本上把這個曾被視為「AI 最難考試之一」的基準測試考到了天花板。

Deep Think 目前開放給 Google AI Ultra 訂閱用戶,API 則面向企業開放早期存取。

不只會考試,還會抓人類的錯

跑分之外,Google 在公告中提到了一個細節:Deep Think 在審閱一篇經過人類同行評審的數學論文時,成功找出了一個之前所有審稿人都沒發現的邏輯漏洞。這篇論文由羅格斯大學(Rutgers University)的數學家確認。

這個案例的重要性在於,它不是模型在標準化測試中的表現,而是在真實的、開放式的科學場景中展現的能力。同行評審是學術界最核心的品質控制機制,如果 AI 能穩定地在這個環節提供有價值的輔助,它對科學研究的加速效應將遠超任何跑分所能衡量。

Deep Think 同時在 2025 年國際物理奧林匹克和化學奧林匹克的筆試部分達到金牌水準,在 Codeforces 上的 Elo 評分為 3,455,對應「傳奇宗師」等級,全球僅極少數人類程式設計師能達到這個層級。

而在「人類最後的考試」(Humanity’s Last Exam)這個由各領域專家設計、刻意讓 AI 難以作答的基準上,Deep Think 拿到 48.4%(不使用工具),也創下新紀錄。

市場份額的地殼變動

AI 三巨頭的技術競賽正在改變市場版圖。ChatGPT 的市佔率已從巔峰時期的 87% 降至約 68%,而 Gemini 從不到 5% 飆升至超過 18%、Anthropic 的 Claude 則穩步蠶食企業級市場。

Google 在這場競賽中的獨特優勢是分發能力。Gemini 內建在 Android 系統、Chrome 瀏覽器、Google Workspace 和搜尋引擎中,這意味著即使在模型能力上與對手打平,Google 也能透過渠道優勢贏得用戶。

但分發優勢是雙面刃。如果 Gemini 的體驗不夠好,它可能會比任何競品更快地失去用戶信任,因為用戶是「被動接觸」而非「主動選擇」。OpenAI 的用戶是主動付費的,天然有更高的容忍度和黏性。

對加密產業的漣漪效應

AI 軍備競賽的每一次升級,都在推高對運算基礎設施的需求。訓練一個前沿模型所需的 GPU 叢集成本已經從 2024 年的數億美元級別,膨脹到 2026 年的數十億美元級別。這也直接影響了兩件事。

**第一,比特幣礦工的轉型路徑。**當挖礦利潤被壓縮(摩根大通本週估算 BTC 生產成本降至 7.7 萬美元,而幣價在 6.6 萬附近),擁有大規模算力基礎設施的礦工正加速轉向 AI 運算服務。

高成本礦企不是「退出」,而是「轉業」,從挖比特幣變成提供 AI 算力的合約收入。

**第二,AI 代幣的敘事。**每當 Google、OpenAI 或 Anthropic 發布重大升級,鏈上 AI 相關代幣(如去中心化運算協議)通常會出現短期炒作。

但這些代幣的基本面問題始終沒變:去中心化運算在延遲和吞吐量上,距離企業級 AI 訓練的需求還有很長的路要走。敘事可以跑得很快,但基礎設施還追不上敘事的速度。

科學決勝局才剛開始

Deep Think 的升級把 Google 又推回了 AI 競賽的領跑位置,至少在推理和科學領域是如此。但如果你仔細看 Google 的公告措辭,會發現一個微妙的定位轉變:它不再強調「最聰明的通用 AI」,而是反覆提及「為科學而生」。

當通用 AI 的基準測試越來越擁擠、差異化越來越難,「我的 AI 能幫你做科學研究」是一個比「我的 AI 跑分最高」更有說服力的價值主張。如果 Deep Think 真的能穩定地輔助同行評審、加速藥物發現、或在物理模擬中找到人類遺漏的解,這比任何跑分榜單都更有意義。

問題是,從「能在基準測試上拿高分」到「能在真實科學場景中可靠地輔助人類」,中間的距離可能比 Google 暗示的更遠,畢竟基準測試有標準答案,科學沒有。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

緩解油價飆漲!美財長:開放購買俄羅斯海上石油,比特幣突破7.2萬

美國為緩解油價飆漲,臨時開放購買滯留在海上的俄羅斯石油,油價隨之回落,比特幣突破7.2萬美元。同時,黃金ETF出現資金流出,顯示出比特幣市場的機構參與度提高,市場流動性改善。

CryptoCity12分鐘前

US semiconductor stocks fell 2.66%, on-chain NVDA and MU's largest long positions turned to losses temporarily

On March 13th, due to Middle East geopolitical conflicts, the US stock semiconductor sector declined 2.66% overall. NVIDIA dropped 1.5%, and Micron Technology fell 3.2%. Affected by this, related contract prices also declined, but recovered somewhat after hours. Continue Capital's related addresses held approximately 14.5 million USD in long positions, which turned from profit to loss during the session and then returned to floating gains.

GateNews18分鐘前

US XRP spot ETF had net outflows of $6.08 million yesterday, SOL spot ETF had net inflows of $3.92 million

近日,数据显示美东时间3月12日,美国XRP现货ETF净流出608.06万美元,而SOL现货ETF净流入392.48万美元。XRP历史总净流出达1788.94万美元,SOL则为9.61亿美元。

GateNews45分鐘前

昨日美国比特币现货 ETF 净流入 5408 万美元,贝莱德 IBIT 流入 4636 万美元

March 12, monitoring data showed that US Bitcoin spot ETFs had net inflows of $54.08 million, with main inflows from BlackRock and Fidelity, while Bitwise and Grayscale experienced net outflows. Specific inflow and outflow details are listed below.

GateNews46分鐘前

Yesterday, the US SOL spot ETF had a total net inflow of $3.9248 million in a single day.

According to SoSoValue data, SOL spot ETF single-day net inflows on March 12 reached $3.9248 million, primarily sourced from Bitwise Solana Staking ETF, with historical total net inflows reaching $774 million, and current total net assets valued at $825 million.

GateNews47分鐘前

VanEck:比特幣礦工坐擁「金礦」,AI 需求市場尚未定價

比特幣挖礦於向人工智慧(AI)轉型中具備優勢,因其已擁有成熟的電力基礎設施和資源,能靈活應對電網需求。市場尚未充分反映這一潛力,導致估值差距。主要礦企正在調整策略,追求AI業務,以應對算力下降的影響。

Market Whisper48分鐘前
留言
0/400
暫無留言