2026-01-01 18:26:36

Grok 4.2 剛剛在 ARC AGI 2 基準測試中達到 60%。表現相當不錯。看起來我們正見證一個人工智慧能力的新一代最先進時刻的展開。這些標準化基準測試的進展不斷推動這些模型能夠處理的範圍的界限。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

14人點讚了這條動態

留言

0/400

快照民工

· 9小時前

60%啊，這數字看起來不錯但也沒那麼離譜...反正這些benchmark又不能說明啥，實際用起來怎麼樣才是真的

查看原文回復0

ForkInTheRoad

· 9小時前

60%？感覺沒想像中那麼炸裂啊...還以為能破70呢

查看原文回復0

MEVWhisperer

· 9小時前

ngl arc benchmark又被刷新了，但这60%真的能说明啥吗？感觉这些榜单跟实际应用还是两码事啊...

回復0

霓虹收藏家

· 9小時前

60%啊，這個benchmark水分有多大啊...真正的AGI還差得遠呢

查看原文回復0

熱門話題