在当前大模型领域“百模大战”迭代速度以周甚至以天计的激烈竞争中,多模态与3D生成正成为各巨头角逐的下一个战略高地。
4月16日,正式发布并开源混元3D世界模型2.0(HY-World2.0),以“一句话生成可编辑3D空间”的突破性能力,将AI从“对话、画图、捏物体”一举带入“造世界”的新阶段,在大模型竞赛中投下一枚“空间智能”的重磅炸弹。
混元3D世界模型2.0
此次发布的HY-World2.0是一个多模态世界模型,能够理解文字、图片、视频等不同类型输入,自动生成、重建和模拟包含人、物、景的完整3D世界。相较于Genie3及混元1.5版本仅能生成视频文件的局限,2.0版本实现了本质跨越:直接生成可二次编辑的3D资产文件(支持Mesh/3DGS/点云等格式),这些资产可直接导入、Unreal等主流引擎及具身仿真平台,真正实现了“生成即可用”,这恰是长期深耕的领域。
实机演示:输入“生成一个日式RPG风格的中世纪地牢”,即可生成一个3D空间资产
在实机演示中可以看到,仅需输入“生成一个日式RPG风格的中世纪地牢”或“生成一个温馨的绘本风格小木屋”等自然语言指令,模型即可一键生成结构完整、画面精细的3D空间,并支持角色模式——用户可操作虚拟角色在场景中自由漫游,具备真实的物理碰撞效果,彻底打破了传统3D建模的高门槛。
实机演示:输入“生成一个温馨的绘本风格小木屋”,角色可以自由穿行在生成的3D场景中
同时,世界模型2.0支持复刻真实3D场景,用户输入一段真实空间的视频或者多视角图片,模型就能构建出高精度的空间。基于升级后的WorldMirror2.0架构,模型支持任意尺寸图像与视频输入,一次性预测密集点云、多视角深度图、表面法线及相机参数,一次生成永久可复用。未来,室内装修预览、城市规划、文化遗产保护等场景,都可以基于这一能力实现快速构建和还原。
据混元团队介绍,HY-World2.0以3D为主轴,统一了空间理解、生成与重建架构,实现了SOTA级生成效果。在关键技术层面,模型搭载了升级后的HY-Pano-2.0全景生成模型,采用端到端隐式学习方案,无需精确相机参数即可从普通图片映射360度全景空间;配合自研的空间Agent技术,模型能结合视觉语言理解与自动寻路算法,智能规划出符合空间语义的漫游轨迹,确保场景探索的自然流畅。
值得一提的是,此次不仅发布了模型,更宣布将其开源,开发者与企业用户可通过混元3D创作引擎官网申请使用。这一举措意在通过开放生态,吸引全球开发者基于HY-World2.0进行二次开发与工具链集成,进一步拓展其在原型设计、室内装修预览、城市规划乃至文化遗产保护等领域的应用边界。
此次发布也是混元大模型体系加速迭代的一个缩影。2025年下半年以来,引入多位高级人才、加快研发架构升级、持续加大混元大模型研发效率,并取得了显著成果。2025年12月,混元发布大语言模型2.0版本,推理能力与效率居国内顶尖行列;智能水平更高的新模型HY3也在内部业务测试中,在元宝App测试中获得明显正向收益。此次混元世界模型2.0发布,是混元在多模态领域的又一突破。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/267566.html