Luma 推出 Uni-1,这是其首款集推理与图像生成于一体的模型

robot
摘要生成中

简要介绍

Luma推出了Uni-1,这是其首款结合推理和图像生成于一体的模型——这标志着这家以视频为重点的初创公司从根本上的重大转变。

Luma Rolls Out Uni-1, Its First Model Integrating Reasoning And Image Generation

人工智能视频生成初创公司Luma推出了Uni-1,这是其首款在单一架构中集成推理和图像生成的模型,标志着公司从之前专注于视频内容的战略转变。

据公司介绍,在过去三年中,Luma的工作已从场景重建发展到3D生成和视频扩散的扩展,但仅靠视觉媒体在没有集成理解的情况下仍有局限。Uni-1被定位为公司首个旨在结合推理和生成能力的统一模型,旨在推动多模态通用智能的发展。

Luma将通用智能描述为推理、想象、符号操作和环境模拟的能力。虽然现有的AI系统可以单独执行这些功能,但Uni-1试图在一个框架内将它们结合起来,模拟时间、空间和逻辑,从而实现传统分段流程无法达到的问题解决能力。

该模型采用解码器为核心的自回归变换器,能够将文本和图像以交错序列的形式表示,既作为输入也作为输出。Uni-1具备进行结构化内部推理、拆解指令、解决约束、规划组合和渲染图像的能力。

Uni-1展现了“用语言思考、用像素想象和渲染”的能力,Luma将其描述为“像素中的智能”。未来版本还将推出音频和视频生成等额外功能。该模型不仅是一个工具,更是一个平台,旨在通过将推理直接融入创意工作流程,改变企业的运营方式。

Luma Agents扩展统一智能

在Uni-1的基础上,Luma最近推出了Luma Agents,这是一套由AI驱动的工具,旨在实现从文本、图像、视频到音频的端到端创意制作。这些代理使用Luma的统一智能系列模型,这些模型在单一的多模态推理系统上进行训练。Luma将这些代理定位为广告公司、市场团队、设计工作室和企业客户的解决方案,提供跨多种模态的协同创意生成。

Luma Agents兼容其他AI模型,包括Luma的Ray 3.14、Google的Veo 3和Nano Banana Pro、字节跳动的Seedream,以及ElevenLabs的语音生成工具。Luma的CEO兼联合创始人Amit Jain表示,这些代理利用了Uni-1的集成架构,该架构经过音频、视频、图像、语言和空间推理的训练,使它们能够在协调、智能的工作流程中进行规划、执行和内容生成。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论