無聊AI的理由

AI 競賽有了贏家。只是那個贏家不是你。

每隔幾個月,就有一個新的模型問世,新的排行榜就會洗牌。各實驗室彼此競逐:用更強的推理、更好的程式碼、更準確的答案,來贏過對方。這些測試的關注度會擴散。資金也一樣。

較少被留意的是,這一切是否注定會發生。基準測試、軍備競賽、把 AI 形塑成拯救或災難——這些都是選擇,而不是物理定律。它們反映的是產業決定要最佳化什麼、也決定要資助什麼。那些需要數十年才能用一般、實用的方式落地的技術,本季不會拿到上百億級的資金。極端敘事會。

有些研究人員認為,目標本身就走錯了路。不是說 AI 不重要,而是重要不必意味著前所未有。印刷機改變了世界。電力也是。兩者都是透過混亂的採用過程而逐步推動改變,給了社會時間作出反應。若 AI 也走這種路徑,那麼正確的問題就不該是超級智能。應該是:誰受益、誰受害,以及我們正在打造的工具是否真的能為使用它的人服務。

不少研究人員一直從非常不同的角度在追問這些問題。以下是他們中的三位。

有用,而非通用

Ruchir Puri 自從在多數人還沒聽過機器學習之前,就一直在 IBM $IBM -0.68% 裡打造 AI。他看著 Watson 在 2011 年打敗了世界上最厲害的《危機》(Jeopardy) 選手。自那以來,他也見過幾輪炒作浪潮高峰又回落。當目前這波浪潮到來時,他用了一個很簡單的測試來判斷:它有沒有用?

不夠厲害。不通用。有用。

「我真的不太在乎『人工通用智慧』,」他說。「我在乎的是它那有用的部分。」

這種說法讓他和產業大多數的自我形象產生衝突。那些向 AGI(人工通用智慧)衝刺的實驗室,正在為『範圍』而最佳化:打造能做任何事、回答任何問題、對任何事進行推理的系統。Puri 認為這是錯的目標,而且他有一個基準測試,想看產業真的嘗試去達成。

人類大腦存在於 1,200 立方厘米之中,消耗 20 瓦特——相當於一盞燈泡的能量——而且正如 Puri 指出的,它靠三明治在運轉。單一台 Nvidia $NVDA +0.26% GPU 消耗 1,200 瓦特,是整個大腦的 60 倍;要做出任何有意義的事情,你需要成千上萬台,放在一個大型資料中心裡。如果大腦是基準,那產業離效率仍很遠。它正在走錯方向。

他的替代方案是他所稱的「混合架構」:小型、中型和大型模型彼此協作,各自分配給它最擅長處理的任務。大型前沿模型負責複雜的推理與規劃。較小且為特定目的打造的模型負責執行。像是起草一封電子郵件這種簡單任務,並不需要一個訓練在整個網際網路一半內容上的系統。它需要的是快速、便宜且聚焦。Puri 指出,大約每九個月,上一代的小型模型就會變得大致等同於當時被視為「大型」的水平。智慧正在變得更便宜。問題是,有沒有人在為這個現實而建造。

這套做法有真實世界的背書。Airbnb $ABNB -1.45% 使用較小的模型來更快解決相當一部分客戶服務問題,速度甚至比它的人類代表還快。Meta $META +0.35% 不用它最大的模型來投放廣告,而是把這些知識蒸餾成只為該任務打造的較小模型。這個模式一致到研究人員已開始稱它為「知識組裝產線」:資料流入,專門模型處理離散步驟,最後有用的成果從另一端產出。

IBM 比多數公司更早就在打造這條產線。一個結合多家公司模型的混合式代理(hybrid agent)已顯示,在大型工程團隊的生產力上能提升 45%。如今,運行在較小、為特定目的打造模型上的系統,也正在幫助那些維持全球 84% 金融交易處理的工程師,在正確的時間提供正確的資訊。這些不是花俏的應用程式。它們也沒有失敗。

沒有哪一個需要能寫詩或解你孩子數學作業的系統。它們只需要更狹窄的能力,因此也更值得信賴。只要模型被訓練來做好一件事,它就知道什麼問題超出了它的範圍。它會告訴你。這種校準後的不確定性——知道自己不知道什麼——是那些大型前沿模型至今仍難以做到的。

「我想為那些流程打造代理與系統,」Puri 說。「不是能回答兩百萬件事的那種。」

工具,而非代理

Ben Shneiderman 有一個簡單測試,用來判斷一個 AI 系統的設計是否到位。使用它的人是覺得自己做了些什麼,還是覺得有些東西被替他做了?

這種差別比聽起來重要得多。Shneiderman 是馬里蘭大學的電腦科學家,曾協助奠定現代介面設計的基礎。他花了數十年時間爭辯:科技的目標應該是放大人類能力,而不是取代它。好的工具會建立他所稱的「使用者自我效能」(user self-efficacy)——也就是你知道自己可以親手做到某件事後所帶來的信心。壞的工具則會默默地把這份掌控感轉移到別處。

他認為大多數 AI 產業正在打造不好的工具,而且他也認為,代理(agentic)這種轉向只會讓情況更糟。AI 代理的說法是:它們會替你行動,從頭到尾處理任務,不需要你參與。對 Shneiderman 來說,這不是什麼功能。這才是問題。當出錯的情況出現,而且一定會出現時,誰負責?當事情進行得順利時,誰學到了任何東西?

他長期對抗的那個陷阱有個名字。擬人化(Anthropomorphism)——把科技做得看起來像人類的衝動——正是它一直贏、也一直失敗的原因。在 1970 年代,銀行曾實驗用自動櫃員機(ATM),讓它們用「我能怎麼幫你?」來迎接客戶,還替自己取名字,例如 Tilly the Teller、Harvey the World Banker。後來它們被能給你三個選項的機器取代:Balance、cash、deposit。使用率飆升。Citibank 的使用率比競爭對手高出 50%。人們不想要那種合成的關係。他們只是想把自己的錢領出來。

同樣的模式在數十年、一次又一次地重演:從微軟 $MSFT -0.16% 的 Bob,到 Humane 的 AI 針(AI pin),再到一波又一波的類人機器人。每一次,那種擬人化的版本都失敗了,然後被取代為更像工具的東西。Shneiderman 稱之為「殭屍想法」。它不會死,只是一直又回來。

如今不同的是規模與複雜度。現行世代的 AI 的確令人印象深刻——他承認,甚至令人震驚地印象深刻。但「印象深刻」和「有用」不是同一回事,而且那些被設計成看起來像人、說「我」、用來模擬關係的系統,正在為錯誤的品質而最佳化。他希望設計者去問的問題更簡單:這會讓人獲得更多力量,還是更少?

「AI 裡沒有『我』,」他說。「至少,不應該有。」

人,而非基準

Karen Panetta 對於為什麼 AI 的開發看起來會變成現在這樣,有一個簡單答案:先看資金流向。

Panetta 是塔夫茨大學(Tufts University)的電機與電腦工程教授,也是 IEEE fellow。她研究 AI 倫理,並且對這項技術應該走向哪裡有清晰的觀點。用於阿茲海默症患者的輔助寵物;針對不同認知風格的兒童的適應性學習工具;讓獨居老年人安享在地老化(aging in place)的智慧家庭監測。她說,能把這些做好的技術大致上已存在。缺的是投資。

「人類不在乎基準測試,」她說。「他們在乎的是:我買了之後,它用起來是否真的行?它是不是會真的讓我的生活更容易?」

問題在於,真正會從設計良好的輔助 AI 中獲益最多的人,卻也是最不會打動風險投資人(venture capitalist)的對象。能改變製造流程、降低職場受傷、並為公司員工削減醫療成本的系統,回報是顯而易見的。能讓阿茲海默症患者保持平靜並維持連結的機器人夥伴,則需要完全不同的數學。於是錢就流向錢會流向的地方,而最需要收益的族群也只能繼續等待。

Panetta 說,改變在於:昂貴的工程難題終於在規模上被解決了。感測器更便宜了。電池更輕了。無線通訊協定變得到處都是。用來打造工廠車間工業機器人的那筆投資,也悄悄地讓消費型機器人變得可行,這在五年前還不是這樣的。從倉庫到客廳的距離,比你想像的還短。

但她擔心的是,圍繞這場轉變的興奮常常跳過了某些部分。實體機器人有自然的限制。你知道受力上限。你知道動力學(kinematics)。你可以預先推演、模擬,並設計避開它們會如何失敗。生成式 AI 卻沒有這些保證。它不是確定性的(non-deterministic)。它會幻覺(hallucinates)。沒有人已完整弄清楚,當它被放進一個家中、且該家裡是罹患失智症的人或是無法判斷何時出錯的孩子時,會發生什麼事。

她見過當感測器髒污時,機器人就會失去空間感知。她也想過,要打造一樣能學到某個人生活中密切細節的東西——他們的日常、他們的認知狀態、他們困惑的時刻——然後再能自主地根據這些資訊行動的東西,意味著什麼。她說,那些失效保護機制(fail-safes)並沒有跟上。

「我不擔心機器人,」她說。「我擔心的是 AI。」

📬 訂閱 Daily Brief

我們每個工作日早晨提供的全球經濟免費、快速又好玩的簡報。

立即訂閱

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 打賞
  • 留言
  • 轉發
  • 分享
留言
請輸入留言內容
請輸入留言內容
暫無留言