2026年一句话可以生成3D游戏，腾讯发布的混元世界模型 2.0可以“造世界”

科技前沿 • 2026-04-18 09:42 • 阅读 10

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

在当前大模型领域“百模大战”迭代速度以周甚至以天计的激烈竞争中，多模态与3D生成正成为各巨头角逐的下一个战略高地。

4月16日，正式发布并开源混元3D世界模型2.0(HY-World2.0)，以“一句话生成可编辑3D空间”的突破性能力，将AI从“对话、画图、捏物体”一举带入“造世界”的新阶段，在大模型竞赛中投下一枚“空间智能”的重磅炸弹。

混元3D世界模型2.0

此次发布的HY-World2.0是一个多模态世界模型，能够理解文字、图片、视频等不同类型输入，自动生成、重建和模拟包含人、物、景的完整3D世界。相较于Genie3及混元1.5版本仅能生成视频文件的局限，2.0版本实现了本质跨越：直接生成可二次编辑的3D资产文件(支持Mesh/3DGS/点云等格式)，这些资产可直接导入、Unreal等主流引擎及具身仿真平台，真正实现了“生成即可用”，这恰是长期深耕的领域。

实机演示：输入“生成一个日式RPG风格的中世纪地牢”，即可生成一个3D空间资产

在实机演示中可以看到，仅需输入“生成一个日式RPG风格的中世纪地牢”或“生成一个温馨的绘本风格小木屋”等自然语言指令，模型即可一键生成结构完整、画面精细的3D空间，并支持角色模式——用户可操作虚拟角色在场景中自由漫游，具备真实的物理碰撞效果，彻底打破了传统3D建模的高门槛。

实机演示：输入“生成一个温馨的绘本风格小木屋”，角色可以自由穿行在生成的3D场景中

同时，世界模型2.0支持复刻真实3D场景，用户输入一段真实空间的视频或者多视角图片，模型就能构建出高精度的空间。基于升级后的WorldMirror2.0架构，模型支持任意尺寸图像与视频输入，一次性预测密集点云、多视角深度图、表面法线及相机参数，一次生成永久可复用。未来，室内装修预览、城市规划、文化遗产保护等场景，都可以基于这一能力实现快速构建和还原。

据混元团队介绍，HY-World2.0以3D为主轴，统一了空间理解、生成与重建架构，实现了SOTA级生成效果。在关键技术层面，模型搭载了升级后的HY-Pano-2.0全景生成模型，采用端到端隐式学习方案，无需精确相机参数即可从普通图片映射360度全景空间；配合自研的空间Agent技术，模型能结合视觉语言理解与自动寻路算法，智能规划出符合空间语义的漫游轨迹，确保场景探索的自然流畅。

值得一提的是，此次不仅发布了模型，更宣布将其开源，开发者与企业用户可通过混元3D创作引擎官网申请使用。这一举措意在通过开放生态，吸引全球开发者基于HY-World2.0进行二次开发与工具链集成，进一步拓展其在原型设计、室内装修预览、城市规划乃至文化遗产保护等领域的应用边界。

此次发布也是混元大模型体系加速迭代的一个缩影。2025年下半年以来，引入多位高级人才、加快研发架构升级、持续加大混元大模型研发效率，并取得了显著成果。2025年12月，混元发布大语言模型2.0版本，推理能力与效率居国内顶尖行列；智能水平更高的新模型HY3也在内部业务测试中，在元宝App测试中获得明显正向收益。此次混元世界模型2.0发布，是混元在多模态领域的又一突破。

2026年一句话可以生成3D游戏，腾讯发布的混元世界模型 2.0可以“造世界”

相关推荐