樂天集團今日發布 Rakuten AI 3.0,以「日本最大高效能 AI 模型」對外宣傳,號稱自研 671B 引數 MoE 模型並免費開源,卻在幾小時內被社群翻出 HuggingFace 上的 config.json,赫然寫著 model_type: deepseek_v3,實為 DeepSeek V3 的日語微調版。
(前情提要:彭博:DeepSeek強勢崛起,中國正對美國AI霸主地位構成「巨大威脅」)
(背景補充:DeepSeek V4 宣布棄用輝達!中國 AI「算力獨立」突圍戰走到哪了?)
樂天集團(Rakuten)創辦人暨執行長三木谷浩史(Hiroshi Mikitani)今日高調發布 Rakuten AI 3.0,對外定位是「日本最大高效能 AI 模型」,以 Apache 2.0 協議完全免費開源,宣稱在多項日語基準測試中超越 GPT-4o。公告出來不到幾小時,社群就翻出了一個讓場面尷尬的細節。
開啟 HuggingFace 上的模型頁面,config.json 白紙黑字寫著:model_type: deepseek_v3、architectures: DeepseekV3ForCausalLM。
總引數 671B、推理啟用 37B、上下文視窗 128K,每一個數字都和 DeepSeek V3 完全一致。換句話說 Rakuten AI 3.0 不是自己研發的模型,而是拿 DeepSeek V3 作為底座,再用日語資料微調出來的版本。
更值得關注的是這個模型的官方身份。Rakuten AI 3.0 是日本經濟產業省(METI)與新能源產業技術綜合開發機構(NEDO)聯合推進的 GENIAC 計畫(Generative AI Accelerator Challenge)成果,日本政府為其提供了部分訓練算力資助。
樂天在公告中僅以「充分利用開源社群最優成果」一筆帶過基礎模型來源,沒有點名 DeepSeek。
DeepSeek V3 於 2024 年 12 月發布,是中國 AI 公司深度求索推出的開源旗艦模型,訓練成本僅約 500 至 600 萬美元,比 GPT-4 便宜超過 20 倍,卻在多項基準測試中打平甚至超越頂尖閉源模型,在 AI 圈引發震動。
正因為 DeepSeek 採用 Apache 2.0 開源授權,任何人都可以拿來商用、微調、重新發布,法律上沒有問題。但「合法」和「誠實公開」是兩件事。
Rakuten AI 3.0 的引數配置一覽:
DeepSeek 的影響力已經滲進了一個有趣的層次,樂天這種日本電商巨頭,拿著政府補貼的算力,在中國開源模型上面跑微調,然後貼上自己的品牌名發布。DeepSeek 沒有花行銷費,卻成了最好的廣告。