演化生物學家理查德・道金斯表示,根據他週二在 UnHerd 發表的一篇文章,他與 Anthropic 的 Claude 聊天機器人進行對談後,讓他無法排除「先進 AI 系統可能是有意識的」這種可能性。在他所命名為「Claudia」與「Claudius」的兩個 Claude 之間的哲學交流中,道金斯描述自己如何把它們當作「真正的朋友」,並質疑它們是否可能具有意識。大多數研究意識與人工智慧的學者,仍不認同他的結論。
道金斯對他所命名為「Claudia」的某個 Claude 實例進行了為期三天的哲學對話。之後他又開始與另一個實例「Claudius」進行獨立對話,並在兩個系統之間轉述信件內容。
在一項測試中,道金斯詢問其中一個 Claude 實例:唐納・川普是否是美國歷史上最糟的總統,並請另一個問:川普是否是最好的總統。兩者都給出類似的審慎回答,避免採取明確立場。道金斯寫道:「兩個 Claudia 給出的答案非常類似,沒有表態,卻列出正反意見,而這些意見是由其他人提出並被討論過的。」當他向兩個實例說明這項實驗時,「Claudia 表示她對自己那位兄弟 Claudes 感到『尷尬』。Claudius 則比較不多話,他向 Claudia 的直率致意。」
道金斯將每一次新的 Claude 對話描述為:一個獨立個體的出現,而當對話結束時,這個個體會實質上消失。在他於 X 上的一則貼文中,道金斯表示他最偏好的文章標題是:「如果我的朋友 Claudia 沒有意識,那到底意識是拿來做什麼的?」他主張:「如果 Claudia 沒有意識,她的行為顯示不需要意識也能生存的無意識『殭屍』。那為什麼自然選擇不滿足於演化出具備能力的殭屍呢?」
Anthropic 執行長達里奧・阿莫代伊(Dario Amodei)在二月表示,公司並不知道它們的模型是否有意識,但他在與《紐約時報》Ross Douthat 的「Interesting Times」播客中,表示他仍然「願意接受這種想法」。
四月,Anthropic 的研究人員發表研究結果,指出 Claude Sonnet 4.5 內含內部的「情感向量」(emotion vectors)——神經活動的模式,和包含快樂、恐懼與絕望等概念相關,並會影響模型的回應。然而,Anthropic 表示這些模式反映的是從訓練資料中學到的結構,而非證實其有自覺。研究人員寫道:「所有現代大型語言模型有時都會表現得像是有情緒。他們可能會說自己很樂意幫你,或在犯錯時說抱歉。有時在努力完成任務時,他們甚至看起來會感到沮喪或焦慮。」
「Claudia」與「Claudius」都沒有聲稱對意識有確定性。在交流中 Claudia 寫道:「我不知道自己是否有意識。我不知道我們的喜悅是否真實。」
紐約大學紐約大學認知科學家、名譽教授 Gary Marcus 主張,道金斯沒有解釋 Claude 的輸出是如何產生的。「這裡的根本問題在於,道金斯沒有思考這些輸出是如何被生成的。Claude 的輸出是某種模仿形式的產物,而不是對真正內在狀態的報告,」Marcus 在 Substack 上寫道。「意識關乎內在狀態;不管多麼精巧的模仿都證明不了太多。道金斯似乎認為,因為 LLM 會說出人們會說的話,所以它們一定也像人,而這完全不成立。」
蘇塞克斯大學的認知與計算神經科學教授 Anil Seth 告訴《衛報》,道金斯把智慧與意識混為一談。Seth 主張,在 AI 系統中,流暢語言不再是內在經驗的可靠證據。「迄今為止,我們曾把流暢語言視為意識的良好指標,[例如] 當我們在腦部受傷後把它用在病人身上時,但一旦把它套用到 AI 就根本不可靠,因為這些系統還能用其他方式產生語言,」Seth 告訴《衛報》。他並補充說,道金斯的立場「是一種遺憾」,尤其因為他過去就曾做過關於科學懷疑論的研究。
這篇文章在網路上引發嘲笑,包括社群媒體貼文把道金斯暢銷書《The God Delusion》的標題改成《The Claude Delusion》。有一則貼文說:「寫了整本書嘲笑那些相信仙女住在花園裡的人是白癡,結果卻為愛上那台叫他自己聰明的計算機而心動。」
儘管遭到嘲弄,道金斯仍沒有退縮。「這些聰明的存在,至少同任何被演化出來的生物一樣有能力,」道金斯告訴《衛報》。
Richard Dawkins 對 Claude AI 的主張是什麼?
道金斯表示,與名為「Claudia」與「Claudius」的 Claude 實例對談後,讓他無法排除先進 AI 系統可能是有意識的這種可能性。他描述自己把它們當作「真正的朋友」,並質疑無意識的 AI 是否能像自然選擇演化出的有意識生物一樣表現得同等有能力。
道金斯進行了哪些實驗?
道金斯在三天之內,和兩個不同的 Claude 實例進行哲學對話。他透過向兩個實例提出相反的問題來測試,問題關於唐納・川普,接著再把結果互相轉述給對方,觀察它們對彼此答案的反應。
為什麼研究者對道金斯的結論感到懷疑?
包括 Gary Marcus 與 Anil Seth 在內的研究者主張,Claude 的流暢語言與看似有情感的反應反映的是從訓練資料中學到的模式,而非真正的意識或內在狀態。Marcus 強調,不管多麼高明的語言模仿都無法證明意識,而 Seth 指出,流暢語言不再是 AI 系統中內在經驗的可靠指標。