Gate 廣場創作者新春激勵正式開啟,發帖解鎖 $60,000 豪華獎池
如何參與:
報名活動表單:https://www.gate.com/questionnaire/7315
使用廣場任意發帖小工具,搭配文字發布內容即可
豐厚獎勵一覽:
發帖即可可瓜分 $25,000 獎池
10 位幸運用戶:獲得 1 GT + Gate 鸭舌帽
Top 發帖獎勵:發帖與互動越多,排名越高,贏取 Gate 新年周邊、Gate 雙肩包等好禮
新手專屬福利:首帖即得 $50 獎勵,繼續發帖还能瓜分 $10,000 新手獎池
活動時間:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
詳情:https://www.gate.com/announcements/article/49112
Io.net 基準測試揭示 RTX 4090 叢集的成本效能「最佳平衡點」
一篇被第六屆國際人工智慧與區塊鏈會議(AIBC 2025)接受的同行評審論文指出,閒置的消費級GPU(以Nvidia RTX 4090為例)若與傳統資料中心硬體搭配使用,能夠顯著降低大型語言模型推理的運行成本。
該論文題為《Idle Consumer GPUs as a Complement to Enterprise Hardware for LLM Inference》,由io.net發表,是首份在該專案的去中心化雲端上公開異質GPU叢集基準測試的研究。分析比較了消費級顯卡叢集與資料中心級H100加速卡,發現明確的成本與效能權衡,這可能會改變組織設計推理叢集的方式。
根據論文,使用RTX 4090組成的叢集在運行成本約為H100的一半時,能提供62%至78%的H100吞吐量。對於批次工作負載或延遲容忍型應用,代幣成本最多可降低75%。研究人員強調,當開發者能容忍較高尾端延遲,或將消費級硬體用於溢出與背景任務(如開發、批次處理、嵌入生成與大規模評估)時,這些成本節省最具吸引力。
IOG基金會研究主管暨該研究首席作者Aline Almeida表示:「我們的研究結果證明,企業與消費級GPU的混合路由,能在效能、成本與永續性之間取得務實平衡。異質基礎設施不是二選一,而是讓組織能根據自身延遲及預算需求最佳化,同時降低碳足跡。」
混合GPU叢集
論文也坦率面對H100的優勢:Nvidia資料中心顯卡即便在高負載下,仍能維持P99首次產生Token低於55毫秒的效能,這使其在即時、低延遲敏感的應用(如生產型聊天機器人與互動代理)中不可或缺。相較之下,消費級GPU叢集更適合能容忍較長尾端延遲的流量;作者認為,200–500毫秒的P99延遲對許多研究及開發/測試工作負載來說是可接受的。
能源與永續性同樣是考量因素。雖然H100每個Token的能效約為消費級顯卡的3.1倍,研究指出,善用閒置的消費級GPU可延長硬體壽命、利用再生能源占比高的電網,進而降低運算的碳足跡。簡言之,策略性部署混合叢集可同時帶來成本效益與環保效益。
io.net執行長Gaurav Sharma表示:「這份同行評審分析驗證了io.net的核心論點:運算的未來將是分散式、異質化且可觸及的。結合資料中心級與消費級硬體,我們可實現AI先進基礎設施的民主化,同時促進永續發展。」
論文的實用建議直指MLOps團隊與AI開發者。作者建議,實時、低延遲路由應使用企業級GPU,開發、實驗與大量工作負載則可交由消費級叢集處理。他們發現,四卡RTX 4090配置在每百萬Token成本($0.111至$0.149)與H100效能占比間達到最佳平衡。
除了基準測試外,該研究也強化了io.net擴展運算資源的使命——將分散式GPU縫合成可編程、按需取用的運算池。公司將其技術棧(結合io.cloud的可編程基礎設施與io.intelligence的API工具包)定位為新創團隊的完整解決方案,助其無需巨額資本投入資料中心硬體,即可進行訓練、代理執行與大規模推理。
完整的基準測試資料與方法論已在io.net的GitHub倉庫公開,供有志者深入分析數據並重現實驗。這份研究為未來幾年如何以可負擔且永續的方式擴展LLM部署,提供了重要且具實證依據的觀點。