Luma、推論と画像生成を統合した最初のモデル「Uni-1」を展開

robot
概要作成中

概要

Lumaは、推論と画像生成を一つのアーキテクチャに統合した初のモデル「Uni-1」を発表しました。これは、動画に焦点を当てていたスタートアップのルーツから大きく方向転換したものです。

Luma Rolls Out Uni-1, Its First Model Integrating Reasoning And Image Generation

AI動画生成スタートアップのLumaは、推論と画像生成を一つのアーキテクチャに統合した初のモデル「Uni-1」を導入し、従来の動画コンテンツに重点を置いた同社の戦略からの大きな転換を示しました。

同社によると、過去3年間でLumaの研究はシーン再構築から3D生成、動画拡散のスケーリングへと進化してきましたが、視覚メディアだけでは統合された理解がなければ限界があると指摘しています。Uni-1は、推論と生成能力を統合した最初の統一モデルとして位置付けられ、多モーダルの汎用知能の進展を目指しています。

Lumaは、汎用知能を推論、想像、記号操作、環境のシミュレーション能力と定義しています。既存のAIシステムはこれらの機能を個別に実行できますが、Uni-1はそれらを一つのフレームワーク内で結びつけ、時間、空間、論理を同時にモデル化し、従来の分断されたパイプラインでは達成できない問題解決を可能にしようとしています。

このモデルは、デコーダーのみの自己回帰型トランスフォーマーとして構築されており、テキストと画像を交互に並べたシーケンスとして表現し、入力と出力の両方として機能します。Uni-1は、構造化された内部推論、指示の分解、制約の解決、構成の計画、画像のレンダリングを行うことが可能です。

Uni-1は、「言語で考え、ピクセルで想像し、レンダリングできる」能力を示しており、Lumaはこれを「ピクセルの知性」と表現しています。今後のリリースでは、音声や動画生成などの追加出力も期待されています。このモデルは、単なるツールではなく、推論をクリエイティブなワークフローに直接統合することで、ビジネスの運営方法を変革するプラットフォームとして意図されています。

Luma Agentsは統一知能を拡張

Uni-1を基盤に、Lumaは最近、Luma Agentsを発表しました。これは、テキスト、画像、動画、音声にわたるエンドツーエンドのクリエイティブ制作を行うAI駆動のツール群です。これらのエージェントは、Lumaの統一知能モデル群を用いて動作し、単一のマルチモーダル推論システムで訓練されています。Lumaは、これらのエージェントを広告代理店、マーケティングチーム、デザインスタジオ、エンタープライズクライアント向けの、複数のモダリティにわたる協調的なクリエイティブ生成のソリューションと位置付けています。

Luma Agentsは、LumaのRay 3.14やGoogleのVeo 3、Nano Banana Pro、ByteDanceのSeedream、ElevenLabsの音声生成ツールなど、他のAIモデルとも互換性があります。LumaのCEO兼共同創業者のAmit Jainは、これらのエージェントはUni-1の統合アーキテクチャを活用しており、音声、動画、画像、言語、空間推論にわたる訓練を受けているため、計画、実行、コンテンツ生成を協調的かつ知的なワークフローで行えると述べています。

原文表示
このページには第三者のコンテンツが含まれている場合があり、情報提供のみを目的としております(表明・保証をするものではありません)。Gateによる見解の支持や、金融・専門的な助言とみなされるべきものではありません。詳細については免責事項をご覧ください。
  • 報酬
  • コメント
  • リポスト
  • 共有
コメント
0/400
コメントなし
  • 人気の Gate Fun

    もっと見る
  • 時価総額:$0.1保有者数:1
    0.00%
  • 時価総額:$0.1保有者数:1
    0.00%
  • 時価総額:$0.1保有者数:1
    0.00%
  • 時価総額:$2.41K保有者数:1
    0.00%
  • 時価総額:$2.46K保有者数:2
    0.23%
  • ピン