亲爱的朋友们,创作不容易,若对您有帮助的话,请点赞收藏加关注哦,您的关注是我持续创作的动力,谢谢大家!有问题请私信或联系邮箱:
2025 年 11 月 12 日,李飞飞(Fei-Fei Li)创立的 World Labs 将其第一款商业产品 Marble 正式向公众开放。这个时间节点颇具意味——彼时大语言模型的军备竞赛已进入存量博弈,而 Marble 的发布将另一个问题推到了台前:AI 的下一个前沿,是空间(Space),而不是语言(Language)。
Marble 是一个多模态世界模型(Multimodal World Model):你可以输入一段文字描述、一张照片、一段视频,甚至一个粗糙的 3D 布局,Marble 将其转化为可下载、可编辑、可交互的持久化三维世界。区别于大多数竞争者“探索即生成”的实时流式方案,Marble 的核心赌注是:先建世界,再进入世界——生成稳定、可导出、与主流引擎兼容的 3D 环境资产。
本文从技术架构、核心模块、工程实践、竞品对比四个维度对 Marble 进行深度解析,并同步覆盖 World Labs 的另一技术路线 RTFM,帮助读者完整理解 World Labs 在空间智能赛道的布局逻辑。

2.1 李飞飞的核心判断
李飞飞在其公开宣言《From Words to Worlds》中明确指出:LLM 擅长在一维 token 序列上预测下一个词,这让它天然难以处理空间推理——比如统计视频里有多少把椅子,或者记住一小时前房间的样子。
世界模型的目标是构建物理世界的内部表征,预测其行为、物理规律和视觉外观,进而让机器和人类智能体与之交互。这不是 LLM 的延伸,而是一个需要全新架构的独立研究方向。
2.2 从 2D 生成到 3D 空间:技术代差
3.1 整体架构全景
┌──────────────────────────────────────────────────────────────┐ │ 输入层(多模态) │ │ 文本 Prompt · 单张图像 · 多视角图 · 视频 · 3D 布局(GLB/FBX) │ └──────────────────────────────┬───────────────────────────────┘
│ ▼
┌──────────────────────────────────────────────────────────────┐ │ 生成核心(Generative World Engine) │ │ │ │ ┌─────────────────────┐ ┌──────────────────────────────┐ │ │ │ Chisel 编辑器 │ │ 多模态融合生成管线 │ │ │ │ (结构-风格解耦) │──►│ 输入编码 → 3D 扩散 → 细化 │ │ │ │ 粗布局 + 文本风格 │ │ │ │ │ └─────────────────────┘ └──────────────────────────────┘ │ │ │ │ │ World Expansion · Composer(多世界拼接) │ └──────────────────────────────┬───────────────────────────────┘
│ ▼
┌──────────────────────────────────────────────────────────────┐ │ 输出层(3D 表征与导出) │ │ │ │ 高斯点云(.ply)· 碰撞网格(.glb)· 高质量网格 · 视频 │ │ │ │ Spark 渲染器(Three.js · WebGL · VR/AR) │ └──────────────────────────────────────────────────────────────┘
3.2 核心 3D 表征:高斯点云(Gaussian Splats)
高斯点云(3D Gaussian Splatting, 3DGS)是 Marble 的主要内部表征格式,也是目前保真度最高的实时 3D 神经表征之一。
基本原理:用数百万个半透明的三维高斯椭球来表示场景,每个椭球携带位置、旋转、缩放、不透明度和球谐系数(颜色)五类属性:
每个 Gaussian 粒子属性: μ ∈ R³ —— 中心位置 Σ ∈ R³ˣ³ —— 协方差矩阵(形状/旋转) α ∈ [0,1] —— 不透明度 c ∈ SH系数 —— 视角相关颜色(球谐函数)
Marble 将生成结果导出为标准 .ply 文件,可直接被 World Labs 开源的 Spark 渲染器(基于 THREE.js)加载,在 Web 浏览器、桌面、移动端和 VR 头显上实时渲染。
3.3 两类网格导出
除高斯点云外,Marble 同时支持两种网格格式,满足下游引擎集成需求:
4.1 Chisel:结构与风格解耦
Chisel 是 Marble 最具差异化的编辑创新——一个 AI 原生 3D 雕刻工具,核心理念是把空间结构(Structure)和视觉风格(Style)拆成两个独立的输入通道:
Chisel 工作流:
Step 1:用基础几何体(盒子/平面)或导入 GLB/FBX 资产搭建粗布局
↓
Step 2:用文本 Prompt 描述视觉风格(“赛博朋克霓虹夜市”)
↓
Step 3:Marble 将粗布局 + 文本风格融合生成完整 3D 世界
↓
Step 4:局部编辑——替换物体、调整风格、不影响整体结构
Chisel 界面包含四个核心组件:3D 视口(主绘图区)、几何面板(墙壁/全景工具)、模板上传器(导入 GLB/FBX)、生成控制台(文本输入 + 生成按钮)。
4.2 World Expansion 与 Composer
对于大型场景需求,Marble 提供两种扩展机制:
4.3 Spark:开源 Web 渲染引擎
Spark 是 World Labs 开源的跨平台高斯点云渲染库,集成于 THREE.js 生态:
- 流式 LOD(Level-of-Detail):根据网络带宽和视距动态调整渲染粒子密度
- 跨平台:桌面、移动端、VR(Vision Pro / Quest 3)统一渲染管线
- WebGL/WebXR 原生:无需插件,浏览器直接运行
Marble 负责生成持久化世界,而 World Labs 于 2025 年 10 月同步发布的 RTFM(Real-Time Frame Model) 则是完全不同的技术路线——实时交互式世界生成:
Marble vs. RTFM 对比:
Marble: 输入 → 生成 → 持久化 3D 资产 → 下载/编辑/导入引擎
[离线生成,高保真,可导出]
RTFM: 输入 → 实时帧推理 → 交互式漫游(KV Cache 作为世界状态)
[在线生成,实时交互,无法导出]
RTFM 的架构是一个自回归扩散 Transformer,端到端训练于大规模视频数据集。它不依赖显式 3D 表征,而是将历史帧编码进 KV Cache,通过注意力机制在生成新帧时隐式“回忆”世界状态。单张 H100 即可实现交互帧率推理。
两条路线并行,恰好覆盖了世界模型的两大需求:内容生产(Marble) vs. 实时仿真(RTFM)。
核心差异:Marble 是当前唯一聚焦“持久化 + 可导出 + 可编辑”的商用世界模型,Google Genie 和 Decart AI 在实时交互体验上更强,但生成结果无法稳定导出为可用资产——这在游戏和机器人两个核心商业场景中是决定性短板。NVIDIA Cosmos 虽然有引擎集成优势,但其定位更偏向物理视频生成而非通用 3D 世界构建。
Marble 代表了 AI 内容生产从“2D 像素”到“3D 空间”的代际跃迁。李飞飞将空间智能定义为“连接想象、感知与行动的能力”,而 Marble 是当下最接近这一定义的商用落地形态。它还远未完成——高斯点云的物理一致性、大规模场景的几何精度、实时交互与持久化的统一,都是未解的工程挑战。但它已经足够清晰地指出了方向:世界不是被描述出来的,而是被生成出来的。
参考资料:
- Marble: A Multimodal World Model — World Labs 官方博客
- Fei-Fei Li’s World Labs speeds up the world model race — TechCrunch
- RTFM: Real-Time Frame Model — Fei-Fei Li on X
- Chisel 工具文档 — World Labs Docs
- NVIDIA Isaac Sim × Marble 机器人仿真案例 — NVIDIA 技术博客
- From Words to Worlds: Spatial Intelligence — Fei-Fei Li Substack
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/267888.html