深潮導讀: Niantic 把 Pokémon Go 玩家拍下的 300 億張城市照片變成了一門新生意。它的 AI 子公司 Niantic Spatial 用這些數據訓練了一套視覺定位系統,能把定位精度做到厘米級,遠超 GPS 在城市峽谷中的表現。第一個大客戶是送餐機器人公司 Coco Robotics。從抓皮卡丘到送披薩,這可能是眾包數據最意外的商業化路徑之一。
全文如下:
Pokémon Go 是全球第一款現象級 AR 遊戲。2016 年由 Google 子公司 Niantic 發布,這款在寶可夢 IP 基礎上疊加增強現實玩法的遊戲迅速席捲全球。從芝加哥到奧斯陸到江之島,玩家們湧上街頭,期盼能抓到一隻胖丁、傑尼龜,或者(運氣爆棚的話)一隻超稀有的伽勒爾閃電鳥——它們懸浮在現實世界之上,就差一點點夠不到。
簡單說,這意味著海量的人拿著手機對著海量的建築物拍照。「五億人在 60 天內裝了這個 App」,Niantic Spatial 的 CTO Brian McClendon 說。Niantic Spatial 是 Niantic 去年 5 月拆分出來的 AI 公司。據遊戲公司 Scopely(同期從 Niantic 手中收購了 Pokémon Go)的數據,這款遊戲在 2024 年仍有超過 1 億活躍玩家,距發布已經過去了 8 年。
現在,Niantic Spatial 正在利用這座無與倫比的眾包數據寶庫——來自全球數億 Pokémon Go 玩家手機的城市地標照片,附帶超精確的位置標記——來構建一種世界模型(World Model)。這是當前的熱門技術方向,目標是把 LLM 的智能錨定在真實世界環境中。
過去幾年,Niantic Spatial 一直在整理 Pokémon Go 和 Ingress(Niantic 2013 年發布的上一款手機 AR 遊戲)玩家產生的數據,構建一套視覺定位系統(Visual Positioning System)——通過你看到的東西來判斷你在哪裡。「讓皮卡丘真實地在街上跑來跑去,和讓 Coco 的機器人安全精確地穿過城市,本質上是同一個問題」,Niantic Spatial CEO John Hanke 說。
「視覺定位不是什么新技術」,數字地圖和地理空間分析公司 ESRI 的 Konrad Wenzel 說,「但很明顯,外面的攝像頭越多,它就越好用。」
現在世界模型非常火,Niantic Spatial 很清楚這一點。LLM 看起來什麼都懂,但在解讀和與日常環境互動時幾乎沒有常識。世界模型就是要解決這個問題。一些公司,比如 Google DeepMind 和 World Labs,正在開發能即時生成虛擬幻想世界的模型,然後用它們作為 AI 代理的訓練場。
寶可夢 GO 的 300 億張照片,正在教送餐機器人認路
作者: Will Douglas Heaven
編譯: 深潮 TechFlow
深潮導讀: Niantic 把 Pokémon Go 玩家拍下的 300 億張城市照片變成了一門新生意。它的 AI 子公司 Niantic Spatial 用這些數據訓練了一套視覺定位系統,能把定位精度做到厘米級,遠超 GPS 在城市峽谷中的表現。第一個大客戶是送餐機器人公司 Coco Robotics。從抓皮卡丘到送披薩,這可能是眾包數據最意外的商業化路徑之一。
全文如下:
Pokémon Go 是全球第一款現象級 AR 遊戲。2016 年由 Google 子公司 Niantic 發布,這款在寶可夢 IP 基礎上疊加增強現實玩法的遊戲迅速席捲全球。從芝加哥到奧斯陸到江之島,玩家們湧上街頭,期盼能抓到一隻胖丁、傑尼龜,或者(運氣爆棚的話)一隻超稀有的伽勒爾閃電鳥——它們懸浮在現實世界之上,就差一點點夠不到。
簡單說,這意味著海量的人拿著手機對著海量的建築物拍照。「五億人在 60 天內裝了這個 App」,Niantic Spatial 的 CTO Brian McClendon 說。Niantic Spatial 是 Niantic 去年 5 月拆分出來的 AI 公司。據遊戲公司 Scopely(同期從 Niantic 手中收購了 Pokémon Go)的數據,這款遊戲在 2024 年仍有超過 1 億活躍玩家,距發布已經過去了 8 年。
現在,Niantic Spatial 正在利用這座無與倫比的眾包數據寶庫——來自全球數億 Pokémon Go 玩家手機的城市地標照片,附帶超精確的位置標記——來構建一種世界模型(World Model)。這是當前的熱門技術方向,目標是把 LLM 的智能錨定在真實世界環境中。
該公司最新的產品是一個模型:只需要幾張建築物或其他地標的快照,就能把你在地圖上的位置精確到幾厘米之內。他們想用它幫助機器人在 GPS 不可靠的地方實現更精準的導航。
作為技術的第一次大規模驗證,Niantic Spatial 剛剛與 Coco Robotics 達成合作。Coco 是一家在美國和歐洲多個城市部署最後一公里送餐機器人的創業公司。「大家都覺得 AR 是未來,AR 眼鏡就要來了」,McClendon 說,「結果機器人先成了用戶。」
從皮卡丘到送披薩
Coco Robotics 在洛杉磯、芝加哥、澤西城、邁阿密和赫爾辛基部署了大約 1000 台行李箱大小的機器人,能裝下最多 8 個超大披薩或 4 袋雜貨。據 CEO Zach Rash 介紹,這些機器人迄今完成了超過 50 萬次配送,在各種天氣條件下累計行駛了數百萬英里。
但要和人類騎手競爭,Coco 的機器人(在人行道上以大約每小時 5 英里的速度行駛)必須足夠可靠。「我們最好的工作方式,就是在告訴你的那個時間準時到達」,Rash 說。這意味著不能迷路。
Coco 面臨的問題是沒法依賴 GPS。在城市裡,無線電信號在建築物之間反彈、互相干擾,GPS 信號很弱。「我們在很多有高層建築、地下通道和高架橋的密集區域做配送,這些地方 GPS 基本上從來不好使」,Rash 說。
「城市峽谷是 GPS 在全世界表現最差的地方」,McClendon 說。「你看手機上那個藍點,經常會漂 50 米,直接把你放到另一個街區、另一個方向、馬路的另一邊。」這就是 Niantic Spatial 要解決的問題。
過去幾年,Niantic Spatial 一直在整理 Pokémon Go 和 Ingress(Niantic 2013 年發布的上一款手機 AR 遊戲)玩家產生的數據,構建一套視覺定位系統(Visual Positioning System)——通過你看到的東西來判斷你在哪裡。「讓皮卡丘真實地在街上跑來跑去,和讓 Coco 的機器人安全精確地穿過城市,本質上是同一個問題」,Niantic Spatial CEO John Hanke 說。
「視覺定位不是什么新技術」,數字地圖和地理空間分析公司 ESRI 的 Konrad Wenzel 說,「但很明顯,外面的攝像頭越多,它就越好用。」
Niantic Spatial 用城市環境中拍攝的 300 億張圖片訓練了模型。這些圖片尤其密集地聚集在「熱點」周圍——Niantic 遊戲中鼓勵玩家前往的重要地點,比如寶可夢對戰道館。「我們在全世界有超過 100 萬個地點,能精確定位你的位置」,McClendon 說,「我們知道你站在哪裡,精度在幾厘米以內。更重要的是,我們知道你在看哪個方向。」
結果就是,對於這 100 萬個地點中的每一個,Niantic Spatial 都擁有數千張在差不多同一位置、但不同角度、不同時段、不同天氣條件下拍攝的照片。每張照片都附帶詳細的元數據:手機當時在空間中的精確位置、朝向、姿態、是否在移動、速度和方向等等。
公司用這個數據集訓練模型,讓它通過「看到的東西」來精確預測自己的位置——即使在那 100 萬個熱點之外、圖像和位置數據相對稀缺的地方也能工作。
除了 GPS,Coco 的機器人(裝有 4 個攝像頭)現在還會用這個模型來判斷自己在哪、要去哪。機器人的攝像頭安裝在臀部高度,同時朝向所有方向,視角和 Pokémon Go 玩家有些不同,但 Rash 說數據適配並不複雜。
競爭對手也在用視覺定位系統。比如 2014 年在愛沙尼亞成立的機器人配送公司 Starship Technologies,稱其機器人用傳感器構建周圍環境的 3D 地圖,標註建築邊緣和路燈位置。
但 Rash 賭的是 Niantic Spatial 的技術能給 Coco 帶來優勢。他認為這能讓機器人精確停在餐廳外正確的取餐位置,不擋任何人的路,而且停在客戶家門口而不是差幾步遠——過去這種情況時有發生。
機器人的寒武紀大爆發
Niantic Spatial 開始做視覺定位系統時,目標是用在增強現實上,Hanke 說。「如果你戴著 AR 眼鏡,希望虛擬世界鎖定在你看的方向上,就需要某種方法來實現。但現在我們正在見證機器人領域的寒武紀大爆發。」
有些機器人需要和人類共享空間,比如建築工地和人行道。「如果機器人要以不打擾人類的方式融入這些環境,它們就必須擁有和人類類似的空間理解能力」,Hanke 說。「當機器人被推搡、碰撞之後,我們能幫它精確地找回自己在哪。」
與 Coco Robotics 的合作只是起點。Hanke 說 Niantic Spatial 正在搭建的,是他所說的「活地圖」(Living Map)的第一批組件:一個超高精度的虛擬世界模擬,隨著現實世界的變化而變化。隨著 Coco 和其他公司的機器人在世界各地行駛,它們將提供新的地圖數據來源,讓數字世界的副本越來越細緻。
在 Hanke 和 McClendon 看來,地圖不僅在變得更細緻,而且越來越多地被機器使用。這改變了地圖的用途。地圖長期以來幫助人類定位自己。從 2D 到 3D 再到 4D(想想數字孿生這樣的實時模擬),基本原理沒變:地圖上的點對應空間或時間中的點。
但面向機器的地圖可能需要變得更像導遊手冊,充滿人類認為理所當然的信息。Niantic Spatial 和 ESRI 這樣的公司想給地圖加上描述,告訴機器它實際看到的是什么,每個物體都標註一系列屬性。「這個時代的任務是為機器構建有用的世界描述」,Hanke 說。「我們擁有的數據,在理解世界的連接組織如何運作方面,是一個很好的起點。」
現在世界模型非常火,Niantic Spatial 很清楚這一點。LLM 看起來什麼都懂,但在解讀和與日常環境互動時幾乎沒有常識。世界模型就是要解決這個問題。一些公司,比如 Google DeepMind 和 World Labs,正在開發能即時生成虛擬幻想世界的模型,然後用它們作為 AI 代理的訓練場。
Niantic Spatial 說他們從不同的角度切入這個問題。把地圖做得足夠極致,你最終會捕捉到一切,McClendon 說:「我們還沒到那一步,但我們想到達那裡。我現在非常專注於嘗試重建真實世界。」