科金社2026年02月02日 13:20消息,智源多模态大模型Emu3登《自然》,展现前沿AI研究成果。
1月28日,北京智源研究院主导的多模态大模型成果“Emu3”正式上线国际顶级学术期刊《自然》正刊(纸质版预计将于2月12日刊发),这是我国科研机构主导的大模型成果首次登上该期刊,标志着我国在人工智能原始创新领域实现了重要突破。 这一成果不仅体现了我国在人工智能基础研究方面的实力提升,也展现了中国科研团队在全球科技竞争中日益增强的影响力。随着技术的不断进步,中国在关键领域的自主创新能力和国际话语权正在稳步提升,未来有望在更多前沿科技领域取得引领性成果。

此前,语言大模型通过“预测下一个词元”(NTP)的自回归方法取得了重大进展,但多模态模型仍主要依赖对比学习、扩散模型等特定方法。自回归是否能成为多模态领域的通用路线,一直是业界尚未解决的难题。智源团队提出的Emu3模型,将文本、图像和视频统一映射到相同的表示空间,采用单一的Transformer架构从头开始进行联合训练,仅依靠“预测下一个词元”的方式,就实现了多模态生成与感知的统一。

实验显示,Emu3在文本到图像生成任务中表现出与扩散模型相当的性能,其视觉语言理解能力可与CLIP及大语言模型的结合方案相媲美,同时还能以纯自回归的方式生成高质量视频,支持视频扩展、图文混合生成以及机器人操作建模等多种任务。《自然》杂志编辑评论指出,该成果在构建可扩展、统一的多模态智能系统方面具有重要价值。
值得关注的是,该团队通过大规模消融实验验证了多模态学习的规模规律,证实直接偏好优化(DPO)能够有效适配自回归视觉生成。后续升级的Emu3.5版本实现了“预测下一个状态”的能力突破,展现出更强的泛化世界建模能力。
作为“悟界”大模型系列的核心成果,Emu3的突破确立了自回归方法在生成式AI中的统一地位。自2020年起,智源研究院启动“悟道”大模型的研究,持续致力于原始创新,此次成果进一步体现了我国在人工智能基础研究领域的国际竞争力。
留言评论
(已有 0 条评论)暂无评论,成为第一个评论者吧!