简要介绍Luma推出了Uni-1,这是其首款结合推理和图像生成于一体的模型——这标志着这家以视频为重点的初创公司从根本上的重大转变。人工智能视频生成初创公司Luma推出了Uni-1,这是其首款在单一架构中集成推理和图像生成的模型,标志着公司从之前专注于视频内容的战略转变。据公司介绍,在过去三年中,Luma的工作已从场景重建发展到3D生成和视频扩散的扩展,但仅靠视觉媒体在没有集成理解的情况下仍有局限。Uni-1被定位为公司首个旨在结合推理和生成能力的统一模型,旨在推动多模态通用智能的发展。Luma将通用智能描述为推理、想象、符号操作和环境模拟的能力。虽然现有的AI系统可以单独执行这些功能,但Uni-1试图在一个框架内将它们结合起来,模拟时间、空间和逻辑,从而实现传统分段流程无法达到的问题解决能力。该模型采用解码器为核心的自回归变换器,能够将文本和图像以交错序列的形式表示,既作为输入也作为输出。Uni-1具备进行结构化内部推理、拆解指令、解决约束、规划组合和渲染图像的能力。Uni-1展现了“用语言思考、用像素想象和渲染”的能力,Luma将其描述为“像素中的智能”。未来版本还将推出音频和视频生成等额外功能。该模型不仅是一个工具,更是一个平台,旨在通过将推理直接融入创意工作流程,改变企业的运营方式。## Luma Agents扩展统一智能在Uni-1的基础上,Luma最近推出了Luma Agents,这是一套由AI驱动的工具,旨在实现从文本、图像、视频到音频的端到端创意制作。这些代理使用Luma的统一智能系列模型,这些模型在单一的多模态推理系统上进行训练。Luma将这些代理定位为广告公司、市场团队、设计工作室和企业客户的解决方案,提供跨多种模态的协同创意生成。Luma Agents兼容其他AI模型,包括Luma的Ray 3.14、Google的Veo 3和Nano Banana Pro、字节跳动的Seedream,以及ElevenLabs的语音生成工具。Luma的CEO兼联合创始人Amit Jain表示,这些代理利用了Uni-1的集成架构,该架构经过音频、视频、图像、语言和空间推理的训练,使它们能够在协调、智能的工作流程中进行规划、执行和内容生成。
Luma 推出 Uni-1,这是其首款集推理与图像生成于一体的模型
简要介绍
Luma推出了Uni-1,这是其首款结合推理和图像生成于一体的模型——这标志着这家以视频为重点的初创公司从根本上的重大转变。
人工智能视频生成初创公司Luma推出了Uni-1,这是其首款在单一架构中集成推理和图像生成的模型,标志着公司从之前专注于视频内容的战略转变。
据公司介绍,在过去三年中,Luma的工作已从场景重建发展到3D生成和视频扩散的扩展,但仅靠视觉媒体在没有集成理解的情况下仍有局限。Uni-1被定位为公司首个旨在结合推理和生成能力的统一模型,旨在推动多模态通用智能的发展。
Luma将通用智能描述为推理、想象、符号操作和环境模拟的能力。虽然现有的AI系统可以单独执行这些功能,但Uni-1试图在一个框架内将它们结合起来,模拟时间、空间和逻辑,从而实现传统分段流程无法达到的问题解决能力。
该模型采用解码器为核心的自回归变换器,能够将文本和图像以交错序列的形式表示,既作为输入也作为输出。Uni-1具备进行结构化内部推理、拆解指令、解决约束、规划组合和渲染图像的能力。
Uni-1展现了“用语言思考、用像素想象和渲染”的能力,Luma将其描述为“像素中的智能”。未来版本还将推出音频和视频生成等额外功能。该模型不仅是一个工具,更是一个平台,旨在通过将推理直接融入创意工作流程,改变企业的运营方式。
Luma Agents扩展统一智能
在Uni-1的基础上,Luma最近推出了Luma Agents,这是一套由AI驱动的工具,旨在实现从文本、图像、视频到音频的端到端创意制作。这些代理使用Luma的统一智能系列模型,这些模型在单一的多模态推理系统上进行训练。Luma将这些代理定位为广告公司、市场团队、设计工作室和企业客户的解决方案,提供跨多种模态的协同创意生成。
Luma Agents兼容其他AI模型,包括Luma的Ray 3.14、Google的Veo 3和Nano Banana Pro、字节跳动的Seedream,以及ElevenLabs的语音生成工具。Luma的CEO兼联合创始人Amit Jain表示,这些代理利用了Uni-1的集成架构,该架构经过音频、视频、图像、语言和空间推理的训练,使它们能够在协调、智能的工作流程中进行规划、执行和内容生成。