2026年【Marble世界模型】技术解析:World Labs空间智能引擎的架构原理与应用全景

【Marble世界模型】技术解析:World Labs空间智能引擎的架构原理与应用全景svg xmlns http www w3 org 2000 svg style display none svg

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 
  
    
     
      
     

亲爱的朋友们,创作不容易,若对您有帮助的话,请点赞收藏加关注哦,您的关注是我持续创作的动力,谢谢大家!有问题请私信或联系邮箱:

2025 年 11 月 12 日,李飞飞(Fei-Fei Li)创立的 World Labs 将其第一款商业产品 Marble 正式向公众开放。这个时间节点颇具意味——彼时大语言模型的军备竞赛已进入存量博弈,而 Marble 的发布将另一个问题推到了台前:AI 的下一个前沿,是空间(Space),而不是语言(Language)

Marble 是一个多模态世界模型(Multimodal World Model):你可以输入一段文字描述、一张照片、一段视频,甚至一个粗糙的 3D 布局,Marble 将其转化为可下载、可编辑、可交互的持久化三维世界。区别于大多数竞争者“探索即生成”的实时流式方案,Marble 的核心赌注是:先建世界,再进入世界——生成稳定、可导出、与主流引擎兼容的 3D 环境资产。

本文从技术架构、核心模块、工程实践、竞品对比四个维度对 Marble 进行深度解析,并同步覆盖 World Labs 的另一技术路线 RTFM,帮助读者完整理解 World Labs 在空间智能赛道的布局逻辑。

在这里插入图片描述


2.1 李飞飞的核心判断

李飞飞在其公开宣言《From Words to Worlds》中明确指出:LLM 擅长在一维 token 序列上预测下一个词,这让它天然难以处理空间推理——比如统计视频里有多少把椅子,或者记住一小时前房间的样子。

世界模型的目标是构建物理世界的内部表征,预测其行为、物理规律和视觉外观,进而让机器和人类智能体与之交互。这不是 LLM 的延伸,而是一个需要全新架构的独立研究方向。

2.2 从 2D 生成到 3D 空间:技术代差

范式 代表模型 表征维度 持久性 可导出 文生图 Stable Diffusion, DALL-E 2D 像素 无 PNG/JPG 文生视频 Sora, Wan, HunyuanVideo 2D 帧序列 无 MP4 实时世界模型 Google Genie, RTFM 隐式神经表征 有限 无/受限 持久世界模型 Marble 3D 高斯点云 完全持久 ✅ 多格式

3.1 整体架构全景

┌──────────────────────────────────────────────────────────────┐ │ 输入层(多模态) │ │ 文本 Prompt · 单张图像 · 多视角图 · 视频 · 3D 布局(GLB/FBX) │ └──────────────────────────────┬───────────────────────────────┘

 │ ▼ 

┌──────────────────────────────────────────────────────────────┐ │ 生成核心(Generative World Engine) │ │ │ │ ┌─────────────────────┐ ┌──────────────────────────────┐ │ │ │ Chisel 编辑器 │ │ 多模态融合生成管线 │ │ │ │ (结构-风格解耦) │──►│ 输入编码 → 3D 扩散 → 细化 │ │ │ │ 粗布局 + 文本风格 │ │ │ │ │ └─────────────────────┘ └──────────────────────────────┘ │ │ │ │ │ World Expansion · Composer(多世界拼接) │ └──────────────────────────────┬───────────────────────────────┘

 │ ▼ 

┌──────────────────────────────────────────────────────────────┐ │ 输出层(3D 表征与导出) │ │ │ │ 高斯点云(.ply)· 碰撞网格(.glb)· 高质量网格 · 视频 │ │ │ │ Spark 渲染器(Three.js · WebGL · VR/AR) │ └──────────────────────────────────────────────────────────────┘

3.2 核心 3D 表征:高斯点云(Gaussian Splats)

高斯点云(3D Gaussian Splatting, 3DGS)是 Marble 的主要内部表征格式,也是目前保真度最高的实时 3D 神经表征之一。

基本原理:用数百万个半透明的三维高斯椭球来表示场景,每个椭球携带位置、旋转、缩放、不透明度和球谐系数(颜色)五类属性:

每个 Gaussian 粒子属性: μ ∈ R³ —— 中心位置 Σ ∈ R³ˣ³ —— 协方差矩阵(形状/旋转) α ∈ [0,1] —— 不透明度 c ∈ SH系数 —— 视角相关颜色(球谐函数) 

Marble 将生成结果导出为标准 .ply 文件,可直接被 World Labs 开源的 Spark 渲染器(基于 THREE.js)加载,在 Web 浏览器、桌面、移动端和 VR 头显上实时渲染。

3.3 两类网格导出

除高斯点云外,Marble 同时支持两种网格格式,满足下游引擎集成需求:

格式 用途 精度 典型场景 碰撞网格(Collider Mesh,.glb) 物理碰撞模拟 低(简化几何) Unreal / Unity 物理层、机器人仿真 高质量网格(HQ Mesh) 视觉还原 高(逼近 Gaussian 保真度) 影视渲染、精细编辑 视频 内容分发 — 预览、社交媒体、可控镜头路径

4.1 Chisel:结构与风格解耦

Chisel 是 Marble 最具差异化的编辑创新——一个 AI 原生 3D 雕刻工具,核心理念是把空间结构(Structure)和视觉风格(Style)拆成两个独立的输入通道:

Chisel 工作流:

Step 1:用基础几何体(盒子/平面)或导入 GLB/FBX 资产搭建粗布局

Step 2:用文本 Prompt 描述视觉风格(“赛博朋克霓虹夜市”)

Step 3:Marble 将粗布局 + 文本风格融合生成完整 3D 世界

Step 4:局部编辑——替换物体、调整风格、不影响整体结构

Chisel 界面包含四个核心组件:3D 视口(主绘图区)、几何面板(墙壁/全景工具)、模板上传器(导入 GLB/FBX)、生成控制台(文本输入 + 生成按钮)。

4.2 World Expansion 与 Composer

对于大型场景需求,Marble 提供两种扩展机制:

机制 行为 适用场景 World Expansion 以现有场景为基础一键向外扩展 地图级大世界、开放世界游戏关卡 Composer 将多个独立生成的世界无缝拼接 多区域组合、团队协作创作

4.3 Spark:开源 Web 渲染引擎

Spark 是 World Labs 开源的跨平台高斯点云渲染库,集成于 THREE.js 生态:

  • 流式 LOD(Level-of-Detail):根据网络带宽和视距动态调整渲染粒子密度
  • 跨平台:桌面、移动端、VR(Vision Pro / Quest 3)统一渲染管线
  • WebGL/WebXR 原生:无需插件,浏览器直接运行

Marble 负责生成持久化世界,而 World Labs 于 2025 年 10 月同步发布的 RTFM(Real-Time Frame Model) 则是完全不同的技术路线——实时交互式世界生成:

Marble vs. RTFM 对比:

Marble: 输入 → 生成 → 持久化 3D 资产 → 下载/编辑/导入引擎

 [离线生成,高保真,可导出] 

RTFM: 输入 → 实时帧推理 → 交互式漫游(KV Cache 作为世界状态)

 [在线生成,实时交互,无法导出] 

RTFM 的架构是一个自回归扩散 Transformer,端到端训练于大规模视频数据集。它不依赖显式 3D 表征,而是将历史帧编码进 KV Cache,通过注意力机制在生成新帧时隐式“回忆”世界状态。单张 H100 即可实现交互帧率推理。

两条路线并行,恰好覆盖了世界模型的两大需求:内容生产(Marble) vs. 实时仿真(RTFM)


场景 具体用法 代表案例 游戏开发 生成背景环境、关卡原型,导入 Unreal/Unity 加逻辑 开放世界环境快速原型 机器人仿真 生成数字孪生工厂,配合 NVIDIA Isaac Sim 训练策略 Marble + Isaac Sim 流水线(小时级 vs. 传统周级) 影视 VFX 快速构建虚拟场景资产,替代部分实景拍摄 虚拟制片背景板生成 VR/AR 生成沉浸式虚拟空间,Vision Pro / Quest 3 直接查看 虚拟会议室、展厅 科学模拟 医疗训练环境、手术场景 3D 重建(李飞飞展望方向) 待落地

维度 Marble(World Labs) Google Genie 2 NVIDIA Cosmos Decart AI 生成范式 持久化 3D 环境 实时交互流式 物理模拟视频 实时交互 输入模态 文本/图/视频/3D 布局 文本/图 文本/视频 图/文本 3D 表征 高斯点云 + 网格 隐式(无导出) 视频帧 隐式 可导出 ✅ PLY/GLB/视频 ❌ 部分 ❌ 编辑能力 ✅ Chisel + 局部编辑 有限 无 有限 引擎集成 ✅ Unreal/Unity/Blender ❌ ✅(NVIDIA 生态) ❌ 实时交互 ❌(离线生成) ✅ ❌ ✅ 机器人仿真 ✅(Isaac Sim 集成) ❌ ✅ ❌ 商业可用 ✅ 含商业授权套餐 研究阶段 商业授权 研究/Beta

核心差异:Marble 是当前唯一聚焦“持久化 + 可导出 + 可编辑”的商用世界模型,Google Genie 和 Decart AI 在实时交互体验上更强,但生成结果无法稳定导出为可用资产——这在游戏和机器人两个核心商业场景中是决定性短板。NVIDIA Cosmos 虽然有引擎集成优势,但其定位更偏向物理视频生成而非通用 3D 世界构建。


维度 核心要点 技术路线 高斯点云作为核心 3D 表征,兼顾高保真渲染与下游引擎兼容性 编辑创新 Chisel 将结构与风格解耦,是 Marble 最具工程深度的差异化设计 双线战略 Marble(持久世界)+ RTFM(实时交互)形成生产内容与实时仿真的完整覆盖 商业落地 游戏/机器人仿真/VFX 是近期锚定场景,医疗/科学是中长期方向 竞争护城河 持久化 + 可导出 + Chisel 编辑 + 引擎集成四合一,同类竞品暂未复制

Marble 代表了 AI 内容生产从“2D 像素”到“3D 空间”的代际跃迁。李飞飞将空间智能定义为“连接想象、感知与行动的能力”,而 Marble 是当下最接近这一定义的商用落地形态。它还远未完成——高斯点云的物理一致性、大规模场景的几何精度、实时交互与持久化的统一,都是未解的工程挑战。但它已经足够清晰地指出了方向:世界不是被描述出来的,而是被生成出来的


参考资料

  1. Marble: A Multimodal World Model — World Labs 官方博客
  2. Fei-Fei Li’s World Labs speeds up the world model race — TechCrunch
  3. RTFM: Real-Time Frame Model — Fei-Fei Li on X
  4. Chisel 工具文档 — World Labs Docs
  5. NVIDIA Isaac Sim × Marble 机器人仿真案例 — NVIDIA 技术博客
  6. From Words to Worlds: Spatial Intelligence — Fei-Fei Li Substack

小讯
上一篇 2026-04-17 23:35
下一篇 2026-04-17 23:33

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/267888.html