樂天高調發布「日本最大 AI 模型」,社群發現內核是 DeepSeek V3

動區BlockTempo

樂天集團今日發布 Rakuten AI 3.0,以「日本最大高效能 AI 模型」對外宣傳,號稱自研 671B 引數 MoE 模型並免費開源,卻在幾小時內被社群翻出 HuggingFace 上的 config.json,赫然寫著 model_type: deepseek_v3,實為 DeepSeek V3 的日語微調版。
(前情提要:彭博:DeepSeek強勢崛起,中國正對美國AI霸主地位構成「巨大威脅」)
(背景補充:DeepSeek V4 宣布棄用輝達!中國 AI「算力獨立」突圍戰走到哪了?)

樂天集團(Rakuten)創辦人暨執行長三木谷浩史(Hiroshi Mikitani)今日高調發布 Rakuten AI 3.0,對外定位是「日本最大高效能 AI 模型」,以 Apache 2.0 協議完全免費開源,宣稱在多項日語基準測試中超越 GPT-4o。公告出來不到幾小時,社群就翻出了一個讓場面尷尬的細節。

開啟 HuggingFace 上的模型頁面,config.json 白紙黑字寫著:model_type: deepseek_v3、architectures: DeepseekV3ForCausalLM。

總引數 671B、推理啟用 37B、上下文視窗 128K,每一個數字都和 DeepSeek V3 完全一致。換句話說 Rakuten AI 3.0 不是自己研發的模型,而是拿 DeepSeek V3 作為底座,再用日語資料微調出來的版本。

日本政府資助,底層卻是中國模型

更值得關注的是這個模型的官方身份。Rakuten AI 3.0 是日本經濟產業省(METI)與新能源產業技術綜合開發機構(NEDO)聯合推進的 GENIAC 計畫(Generative AI Accelerator Challenge)成果,日本政府為其提供了部分訓練算力資助。

樂天在公告中僅以「充分利用開源社群最優成果」一筆帶過基礎模型來源,沒有點名 DeepSeek。

DeepSeek V3多強?

DeepSeek V3 於 2024 年 12 月發布,是中國 AI 公司深度求索推出的開源旗艦模型,訓練成本僅約 500 至 600 萬美元,比 GPT-4 便宜超過 20 倍,卻在多項基準測試中打平甚至超越頂尖閉源模型,在 AI 圈引發震動。

正因為 DeepSeek 採用 Apache 2.0 開源授權,任何人都可以拿來商用、微調、重新發布,法律上沒有問題。但「合法」和「誠實公開」是兩件事。

Rakuten AI 3.0 的引數配置一覽:

  • 架構:MoE(混合專家),基底為 DeepSeek V3
  • 總引數:671B,推理啟用:37B
  • 上下文視窗:128K tokens
  • 語言最佳化:日語為主
  • 授權:Apache 2.0(商業使用無限制)

DeepSeek 的影響力已經滲進了一個有趣的層次,樂天這種日本電商巨頭,拿著政府補貼的算力,在中國開源模型上面跑微調,然後貼上自己的品牌名發布。DeepSeek 沒有花行銷費,卻成了最好的廣告。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明
留言
0/400
暫無留言