Yifan ZhangがDeepSeek V4の完全な技術仕様を開示:1.6Tパラメータ、6アクティベーション搭載の384人のエキスパート

Gate Newsの告知、4月22日——プリンストン大学の博士課程学生、Yifan Zhangが、4月19日の予告に続いてX上でDeepSeek V4の完全な技術仕様を明らかにした。V4は総パラメータ数1.6兆のほか、パラメータ2850億の軽量版V4-Liteを備える。

このモデルはDSA2のアテンション・メカニズムを採用しており、V3.2のDeepSeekの既存DSA (DeepSeek Sparse Attention)と、512次元のヘッド埋め込みを用いたNSA (Native Sparse Attention)を組み合わせる。さらに、Sparse Multi-Query Attention (MQA)とSliding Window Attention (SWA)を組み合わせる。MoE (Mixture of Experts)の層には、順伝播の1回あたり6つが活性化される384人のエキスパートが含まれ、Fused MoE Mega-Kernelを使用する。残差接続はHyper-Connectionsアーキテクチャを用いる。

初めて明らかにされたトレーニングの詳細には、Muonオプティマイザの使用が含まれており、(applying Newton-Schulz orthogonalization to momentum updates)、32Kトークンの事前学習コンテキスト・ウィンドウ、強化学習中のKLダイバージェンス補正を伴うGRPO (Group Relative Policy Optimization)が明らかにされた。最終的なコンテキスト・ウィンドウは100万トークンまで拡張される。モデルはテキストのみ。

ZhangはDeepSeekに雇用されておらず、同社は開示された情報について公式にはコメントしていない。

免責事項:このページの情報は第三者から提供される場合があり、Gateの見解または意見を代表するものではありません。このページに表示される内容は参考情報のみであり、いかなる金融、投資、または法律上の助言を構成するものではありません。Gateは情報の正確性または完全性を保証せず、当該情報の利用に起因するいかなる損失についても責任を負いません。仮想資産への投資は高いリスクを伴い、大きな価格変動の影響を受けます。投資元本の全額を失う可能性があります。関連するリスクを十分に理解したうえで、ご自身の財務状況およびリスク許容度に基づき慎重に判断してください。詳細は免責事項をご参照ください。

関連記事

OpenClaw、Hermes、SillyTavernがGLM Coding Planのサポート対象として確認

Zhipu AIのPMリが、OpenClaw、Hermes、SillyTavernを対応済みのGLM Coding Planプロジェクトとして発表。その他のツールはケースバイケースで評価されます。資格情報を共有したり、サブスクリプションをAPIアクセスとして使用したりしないでください。エラー1313の場合はサポートに連絡してください。 Zhipu AIのプロダクトマネージャーLiは、OpenClaw、Hermes、SillyTavernがGLM Coding Planのもとで正式に対応プロジェクトとしてサポートされていると発表しました。注記では資格情報の共有や、サブスクリプションをAPIアクセスとして使用することへの注意が促され、エラー1313に遭遇したユーザーはサポートへ連絡するよう案内されています。

GateNews19分前

Google CloudのCEO:Geminiが2026年のAppleのパーソナライズSiri展開を支える

要約:Geminiが2026年に個別化されたAppleのSiriを稼働させる。AppleのFoundation ModelsとGeminiの連携を土台に構築される。AppleはiOS 27/macOS 27でチャットのようなSiriをテストしており、2026年のWWDCで予定されている。 概要:Google CloudのGeminiは2026年までに個別化されたAppleのSiriを稼働させる予定で、GeminiをAppleのFoundation Modelsと融合させる。両者の連携はおおよそ$1 billion規模だという。Appleは、Dynamic Islandのインターフェースと新機能を備えた再設計のチャットのようなSiriを、iOS 27/macOS 27でテスト中だ。2026年6月8日のWWDC 2026での披露に先立つ。 要約:Geminiが2026年に個別化されたAppleのSiriを稼働させる。AppleのFoundation ModelsとGeminiの連携を土台に構築される。AppleはiOS 27/macOS 27でチャットのようなSiriをテストしており、2026年のWWDCで予定されている。 概要:Google CloudのGeminiは2026年までに個別化されたAppleのSiriを稼働させる予定で、GeminiをAppleのFoundation Modelsと融合させる。両者の連携はおおよそbillion規模だという。Appleは、Dynamic Islandのインターフェースと新機能を備えた再設計のチャットのようなSiriを、iOS 27/macOS 27でテスト中だ。2026年6月8日のWWDC 2026での披露に先立つ。

GateNews50分前

SpaceX $60B Cursorの取引がSBFの恩赦後押しを加速。FTXの $200K スタークは現在価値が30億ドルに

Gate Newsのメッセージ、4月22日 — SpaceXは本日、AIコーディングのスタートアップCursorとの大規模な提携を発表し、同社を$60 billionで買収する選択肢がある。 この取引は、現在収監されていて大統領の恩赦を求めているSam Bankman-Fried (SBF)に新たな追い風を与えた。 それは、彼が長年主張してきたように、FTXが得られたはずの価値の回復可能性を示しているからだ。

GateNews58分前

Cheggの株価が99%下落、AIがEdtech市場を混乱させる

要約:Cheggはオンライン教育需要の高まりの中で急騰したが、その後AIツールがモデルを混乱させ、大規模なレイオフと、$2を下回る崩落につながった。さらに広範なAI主導の変化が、暗号資産マイナーやフィンテック企業にも打撃を与えた。 概要:この記事では、パンデミック期のedtechの寵児としてのCheggの躍進と、生成AIの急速な普及の中でのその下落を検証する。生成AIは素早い回答を提供し、Cheggの価値提案を覆す。2025年のレイオフと、上場廃止に向けた株価の急落を記録し、Cheggの経験をより大きなAIによる破壊として位置づける。そこでは、ビットコインのマイナーがAI運用へ転換し、AIネイティブな戦略が、フィンテックやそれ以外の領域における競争力の定義を作り替えている。

CryptoFrontier1時間前

OpenAIが、PII検出とマスクのためのオープンソース・プライバシーフィルターモデルを公開

概要:OpenAIのプライバシーフィルターはオープンソースで、ローカルで実行できるモデルで、テキスト内のPIIを検出してマスクします。大きなコンテキストに対応し、多くのPIIカテゴリを特定でき、データの準備、インデックス作成、ログ記録、モデレーションなどのプライバシー保護型ワークフローを想定しています。 OpenAIのプライバシーフィルターは、ローカルで実行されるオープンソースのモデル (128k-token context) で、テキスト内のPIIを検出してマスクし、プライバシーワークフローのために連絡先、金融、認証情報のデータをカバーします。

GateNews1時間前

OpenAIは2030年までに計算能力30GWを展開する計画

OpenAIは、増大するAI需要に対応するため、2030年までに計算能力30GWを目指しており、2025年の目標10GWのうちすでに8GWを完了しています。この拡大は、次世代AIの開発とデプロイに向けてインフラを拡張する戦略を示しています。 OpenAIは、増加するAI需要に対応するため、2030年までに計算能力30GWに到達する意向であり、すでに2025年の目標10GWのうち8GWを完了しています。この動きは、次世代AIの開発とデプロイを支えるためのインフラを戦略的に拡大することを反映しています。

GateNews1時間前
コメント
0/400
コメントなし