OpenAI 公布 MRC 超級電腦網路協議!攜手輝達、AMD、微軟打造 Stargate 基礎設施

鏈新聞abmedia

OpenAI 宣布推出全新 AI 超級電腦網路協議 MRC(Multipath Reliable Connection),並已透過 Open Compute Project(OCP)開源釋出。這項技術由 OpenAI 與 AMD、Microsoft、NVIDIA、Intel、Broadcom 等業者共同開發,目標是解決超大型 AI 訓練叢集在 GPU 之間的資料傳輸瓶頸。

AI 訓練真正瓶頸是 GPU 之間如何溝通

OpenAI 表示,隨著 ChatGPT 每週使用人數已超過 9 億,AI 系統正逐漸成為基礎設施等級的服務。為了支撐下一代模型訓練與推論需求,OpenAI 認為不只模型本身需要進化,連網路架構都必須重新設計。

OpenAI 在技術文章中指出,大型 AI 模型訓練時,一次訓練步驟可能涉及數百萬次 GPU 間資料交換。只要其中一個傳輸延遲,就可能讓整個訓練同步停滯,導致大量 GPU 閒置。

而當 AI 超級電腦規模越來越大,網路壅塞、交換器故障、延遲抖動(jitter)等問題會急遽放大。OpenAI 認為,這也是 Stargate 超級電腦計畫中最核心的技術挑戰之一。

過去資料中心的網路架構,多數採用單一路徑傳輸(single-path)。但 MRC 最大的改變,是讓同一份資料能同時分散到數百條路徑傳輸。

MRC 是什麼?OpenAI:讓 AI 網路變自動閃避障礙物

根據 OpenAI 與 AMD 的說法,MRC 的核心概念是:

將資料拆散,同時走多條路徑

在微秒級別自動繞過故障

減少網路壅塞造成的延遲

讓 GPU 保持同步運作

AMD 形容,傳統 AI 網路像是高速公路只走單一路線,一旦塞車或事故就會影響整體進度;MRC 則像是具備即時改道能力的智慧交通系統。AMD 甚至直言:「AI 規模化真正的瓶頸已經不是 GPU 與 CPU,而是網路。」

為什麼 OpenAI 要自己設計網路協議?

這次 OpenAI 釋出的訊號非常明確:AI 競爭已經不只是模型競爭,而是整套「超級電腦基礎設施」競爭。OpenAI 在文章中提到,在 Stargate 出現之前,他們與合作夥伴已共同維護三代 AI 超級電腦。這些經驗讓 OpenAI 得出一個結論:若想在 Stargate 規模下有效使用算力,整個 stack 都必須大幅降低複雜度。其中就包含網路層。

也就是說,未來 Frontier Model 的競爭,不再只是誰有更強模型,而是誰能更有效率地讓數十萬、甚至數百萬 GPU 同步運作。

MRC 背後是 Stargate:OpenAI 的曼哈頓計畫

MRC 的背景,其實是 Stargate LLC。Stargate 是 OpenAI、SoftBank Group、Oracle Corporation 與 MGX 推動的大型 AI 基礎設施計畫,最初目標是在美國投資高達 5,000 億美元 AI 基礎設施。OpenAI 表示,目前已超過原本 10GW 的階段性目標,且最近 90 天新增超過 3GW AI 基礎設施容量。

其中位於德州 Abilene 的 Stargate 超級電腦,正是 MRC 主要部署場域之一。OpenAI 指出,MRC 已整合進最新 800Gb/s 網路介面,並在實際大型訓練叢集中運行。

這篇文章 OpenAI 公布 MRC 超級電腦網路協議!攜手輝達、AMD、微軟打造 Stargate 基礎設施 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

xAI 與 Anthropic 合作,提供 Colossus 運算存取

根據 xAI 與 Anthropic 的官方聲明,這兩家公司已建立新的運算合作夥伴關係。SpaceX 的 xAI 已簽署協議,將提供 Anthropic 存取 Colossus 運算資源。Anthropic 計畫利用這項額外的運算能力以

GateNews13分鐘前

AI 招募平台 Ethos 完成 2275 萬美元 A 輪融資,於 5 月 6 日由 a16z 領投

根據 BlockBeats,總部位於倫敦的 AI 招聘平台 Ethos 於 5 月 6 日完成 2,275 萬美元 A 輪融資,由 Andreessen Horowitz(a16z)領投,General Catalyst 參投。該平台使用 AI 進行面試並分析

GateNews1小時前

OpenAI 與 AMD、Intel、NVIDIA 推出 MRC Network 協議;支援 100,000+ 張 GPU

根據 OpenAI 在 5 月 6 日的公告,該公司與 AMD、博通(Broadcom)、英特爾(Intel)、微軟(Microsoft)以及 NVIDIA 合作推出多路可靠連線(Multipath Reliable Connection,MRC),這是一種用於大規模 AI 訓練叢集 GPU 互連的開放式網路協定。該協定將單一資料傳輸拆分為

GateNews2小時前

Hut 8 股份在價值 98 億美元的 AI 資料中心租賃交易上飆升 34%

根據 The Block,Hut 8 Corp. 的股價在今日盤前交易中上漲 34%,至 107.87 美元。該公司簽署了一份價值 98 億美元的租約,針對位於德州 Nueces County 的人工智慧資料中心園區,且設計符合 NVIDIA 的運算架構。該交易代表 Hu 的第一階段

GateNews2小時前

CleanSpark 執行長:AI/HPC 基礎建設所需的網路資源比比特幣挖礦更多

根據 CoinDesk 的一段專訪,CleanSpark 首席技術官 Taylor Monnig 表示,從比特幣挖礦轉向 AI/HPC 基礎設施需要更多冗餘、也更少臨場應變。「單一機架的網路光纖超過整個比特幣挖礦設施的規模」,Monnig

GateNews3小時前

上市公司收購 AI 投資平台 Treasury App

根據 Foresight News,投資應用 Public 宣布已於 5 月 6 日收購由 AI 驅動的投資平台 Treasury App。收購金額未予披露。此交易旨在強化 Public 以 AI 驅動的券商業務,目前該業務支援股票、債券以及

GateNews3小時前
留言
0/400
暫無留言