卫诗婕:我们先从谷歌 Deepmind 发的 Genie3 开始说,你们跟 Genie 3 的本质区别是什么?
黄晓煌:按我的理解,他们大部分是基于视频来训练,我们是以三维加视频模型切入。我们的模型大小肯定跟他们没得比。只是做一个视频大模型的补充。
卫诗婕:你们是基于 3D 生成数据,其实就是过去做业务不断积累下来的。后来有其他的方式扩充这个数据集吗?
黄晓煌:我们在研究,内部有其他立项,通过一些其他手段收集更多数据。
卫诗婕:你们数据集目前就是聚焦在室内场景。
黄晓煌:目前是,但室内不光是家庭,有办公室、工厂。我们也在跟英伟达合作,英伟达更多的是提供一个引擎,卖更多的显卡,我们可以提供数据。
卫诗婕:给需要的企业训自己的模型,但他们那个好像说有 9, 000 万亿个 TOKEN 的训练,来自 2, 000 万小时的真人世界人类互动,我们怎么理解这些参数?
黄晓煌:首先 Cosmos 做的还是非常不错的,英伟达本身也是为了推动行业的发展,它更多的是给其他公司提供基础设施,或者一个 Demo 。
卫诗婕:像他这种参数的是不是目前为止群核肯定训不了?
黄晓煌:要训也能训,但是花这么大成本跟代价做,价值点在哪里?我们毕竟规模小很多, GPU 也没那么多。
卫诗婕:你们训的方式跟英伟达有什么区别吗?
黄晓煌:本质上没有太大区别,就是模型没那么大、 GPU 没那么多。
卫诗婕:相比刚才讲到的谷歌Deepmind ,英伟达其实是跟你们更接近,它是实际场景的 3D 数字孪生数据积攒而成。只是说参数量比群核大很多。李飞飞的 Worldlab,我看前几天他们的 demo 生成了,你有关注吗?
黄晓煌:我看了,李飞飞那个做的更接近于实验室的学术成果,不像 Nvidia 落地性那么强。
卫诗婕:我不太懂技术,但看了 Worldlab 的 Demo ,感觉像是一个国外先进游戏的画面。而你们在昨天的tech day 的演示,选了一个要拆除的照相馆,它是个真实场景,通过上传一张图片,你们的模型会围绕这张图片自动生成一个房间。 World lab 那个很像一个游戏世界,非常的虚拟。但是你们生成的这个空间很真实。
黄晓煌:对, World lab 是一个很伟大的、偏学术的公司。我个人猜测李飞飞成立这公司也是因为在学校里面获取 GPU 或者搞经费太难了。我看起来更多的是一个学术成果,没看出有什么商业化前景,可能是我认知有限。我们更希望做一些有技术前瞻性,又能够服务现实生活的,更贴近于商业化一些。
卫诗婕:腾讯的混元 3D 模型呢?
黄晓煌:他们主要室外的,而且也是你说的游戏风格,我估计他们主要是用在游戏上,有些游戏公司可能会要。
卫诗婕:所以在世界大厂当中,真正做空间采集的 3D 孪生数据来训模型的是只有英伟达吗?
黄晓煌:据我所知,其实各大厂也都在做,只不过数据占比怎么样?空间一致性所有公司都会关心的,只不过他们最终的技术方向怎么定我不知道,但是肯定都会一定程度上引入三维数据来做约束。
卫诗婕:现在你们在做的这个事情,看起来是各家大厂都在做的很重要的。
黄晓煌:也没有。我觉得目前各个大厂还是很小的团队在探索。不像大语言模型,是倾全公司之力在做的。
卫诗婕:所以你们不在红海,在蓝海。
黄晓煌:红海,我因为我被巨头打过呀。在你的视野范围内。找一个巨头做了没什么太大意义,又适合你做的东西。
卫诗婕:什么时候开始加大资源正式立项,要做一个群核的空间语言大模型?
黄晓煌:大概 2023 年,还是 2024 年,也没多长时间。
卫诗婕:具体在训的过程当中,比你们想象当中简单还是难?
黄晓煌:我们实际上在大语言模型出来之前就尝试做,但是我们之前想输出脚本非常困难。后面有人开源了才有条件做。所以说为什么开源比较好?因为你永远想不到别人用你这东西下一步干嘛。我们也是开源的受益者,所以应该积极拥抱。数据集 21 年就开始准备了,只不过那一波没试成功,没有别人开源的大语言模型之前,我们自己训的模型输出脚本总是不对。
卫诗婕:现在有三个概念,黄仁勋在今年 GTC 强调的物理 AI ,李飞飞去年强调的空间智能,还有最早 LeCun 提出的世界模型。这三个概念有什么关联性和差异吗?
黄晓煌:我个人觉得这三个观念的方向是很接近的,当然它各自强调的点也有一些区别。黄仁勋可能更强调的是跟物理世界的连接,飞飞更多的是在数字世界里对空间的理解。 LeCun 世界模型我感觉更多的是侧重在视频模型里面,要符合物理世界的客观规律。但是实际上都指向了同一个问题,现在的大模型有幻觉,或者它对世界的理解跟我们不太一样,所以我们需要一些新的模型来解决这个问题。
卫诗婕:你们的空间智能跟李飞飞的空间智能有区别吗?
黄晓煌:我们更多的是在已有业务的基础上做发展的,聚焦在以真实世界为基础的空间智能。我看李飞飞很多 demo ,有些是类似于游戏世界的,所以区别挺大。
卫诗婕:我对空间智能有一个自己的理解,觉得它是用来帮助 AI 或者智能体去理解物理世界的规律。能不能给大家解释一下,为什么空间智能是 AI 迈向物理世界的必经之路?
黄晓煌:因为现在的所有机器人,它的大脑肯定是数字。至少我们的技术没有办法离开电脑。所以不管做什么样的机器人,最终都得把所有的数据集中到数字世界里去做运算,之后以某一种方式返回到物理世界里去,所以数字世界是必不可少的。在数字世界里做运算的时候,物理世界的规律并不会出现在数字世界里。计算的东西要跟你推测的世界相吻合,才能够真正的干活,这个问题就是空间智能要解决的。
卫诗婕:你们是怎么构建这个空间智能的?
黄晓煌:先有了物理世界的约束,在这个基础上产生了大量的带有物理世界参数跟约束的数据,在这基础上再做训练。
卫诗婕:怎么理解物理世界的约束?
黄晓煌:这些东西是得出现在三维模型里面的,你在做训练的时候,是可以知道这些参数的。
卫诗婕:你们最早的 InteriorNet 数据集,其实就是在给房地产行业做家装渲染的过程当中,自然而形成的一个原始的数据集。
黄晓煌:做全屋定制、工业 4.0 的时候,形成了一个数据集。我们跟这些作者商量了,买了一些版权过来。
卫诗婕:您刚才讲的物理世界的约束指的是在服务的过程当中会做很多参数的界定。
黄晓煌:它里面需要很多参数,我们在做工业 4.0 的时候,得确保生产出来的所有东西是真实世界可以用的,所以我们做了一个仿真系统去模拟它生产出来之后的样子,确保它在物理世界里不要有 bug 。你可以理解成这两个步骤是反过来的,一开始我们先有了数字世界的东西。赋予了它各种的参数系数,然后我们去物理世界把它生产出来,得确保它生产出来的东西的参数跟系数,跟我们想要的是一致的。我们当时开源 InteriorNet 的时候就在想,这个事情有没有可能反过来做?我们就开源出来给大家实验。
卫诗婕:我刚才讲 21 年有公司再进一步找到你们。你本来就是开源的,为什么要找你呢?
黄晓煌:因为数据量还不够,一开始拿着这个数据训练了一阵子,发现效果挺好。后面要更多的数据量。
卫诗婕:所以当时我知道这个是你们的一个 side project,对吧?
黄晓煌:对,也不算边缘项目,是科研团队在做。没想过商业化,本来想发论文的。我们只是单纯的好奇工业 4.0 流程能不能反过来做。
卫诗婕:到了 21 年,其实初步验证了反过来是可行。很多团队会拿来训练 AI 、机器人。到了 23 年,这个雏形就更加清晰了。
黄晓煌:对,它可以反过来,并不代表可以获得所有的信息。 21 年的时候没有大模型,大家只是反过来做一些很粗浅的工作。还没有 scaling law 这个理念。23 年有了之后就可以训练的更智能,泛化性、理解力更强。
卫诗婕:现在空间智能是群核最大的战略,它有哪些要素组成?
黄晓煌:昨天发布会上也讲了空间智能,我们认为包括四个部分,空间的理解、空间的推理、空间的生成跟空间的行为。空间认知是空间理解的一部分。公司的战略上是觉得工具、数据跟大模型都是缺一不可的,它是一个飞轮。今天光有还不行,要由工具来产生数据,再由数据训练大模型,大模型是空间智能输出的核心,这个体系能够循环起来,才能最终产生空间智能。
卫诗婕:工具用来产生数据。这个怎么理解?
黄晓煌:用来训练大模型的数据不是凭空生成的,也没有办法从互联网上直接扒出来,总得有一些方式能够获取。
卫诗婕:这里可以展开讲一下。机器人的数据大概可以分为两种,一种是仿真合成的,一种是真实世界采集的,当然真实世界采集的很贵。所以我所知道做机器人大脑的公司,主要用的还是合成仿真。你们做了哪些工具,可以如何去生产这一些用于训练 AI 的数据呢?
黄晓煌:你刚才说的两种方式都需要工具。真实世界的这些东西,怎么进到数字世界里面变成数据,是由工具来完成的。
卫诗婕:你们现在的哪些产品是做数据的工具?
黄晓煌:酷家乐、棚拍。这种类型的都是工具。棚拍就是给一些实拍的产品做影棚,像电商,一个商品要卖到全世界各地,每一个国家有自己的影棚的风格。人不变,或者商品不变,整个环境发生变化。原来贴图的方式可以改变图片,但是场景改不了的。做视频之类的,空间智能的工具就可以发挥作用了。
卫诗婕:周老师讲了一个点,还蛮有意思的。你们现在肯定是有一个存量数据集,使得群核有先发优势。但是我想未来如果大家都意识到物理 AI 的重要性的话,大家也会重视数据的重要性,可能纷纷开始采集物理世界的数据或者生成,那优势就是有限的。
黄晓煌:所以我刚才提到了,我们公司是由工具、数据跟模型组成的,要有高效的工具去获取数据。不管是给人用的还是自动化的,得很高效,有更多的数据之后,可以训练大模型。然后用这个大模型让工具更加高效。它是一个循环。
卫诗婕:他还提到了一点,群核还挺希望能够尽快摆脱对存量数据的依赖。有很多种方式,可以让 AI 或者智能体自己去探索,过程当中会产生数据。这个数据集就会更庞大。而且可能会有意想不到的收获。
黄晓煌:是的,也在往这方向努力,所以我们也在做 spatialGen ,它自己能够生成数据。
卫诗婕:spatialGen 应该是一个空间生成模型,对不对?我们昨天看到的 Demo 是你上传一张图片,它就能自动生成一个跟这图片相关的空间。这个其实也就是生成数据的一个工具了。现在能被谁用起来?
黄晓煌:我们自己内部是用来给电商生成场景的。相信它的使用场景还会非常广泛的,所以开源大家都可以用。实际上我们跟视频生成公司是互补的关系,我们的模型可以保证空间的一致性。
卫诗婕:我觉得这个不叫互补,叫你能做到他们暂时还不能做到的一些事情。那就意味着你们面向一些应用场景的时候,有可能做他们无法做的商业化。
黄晓煌:对,但是他们的东西我们也没去做,比如说国内的一些首尾帧视频生成,我们也在调用。有一些不要求场景一致性很高的,比如说要做一个天马行空的内容,就是现在的视频模型更好。比如说做一个动漫故事,能把故事讲清楚就行了。它效率更高,算力成本更低一些。
卫诗婕:你是在暗示跟这些视频生成公司之间没有直接的竞争关系吗?
黄晓煌:我觉得未来应该不是竞争关系,而是合作关系。我们也调他们的模型。很多地方我们不用自己去重复造轮子,内部电商业务线就是把 spatialGen 作为其中一部分。但是外部有好的模型,比如可灵、混元,我们也在调用,反正是开放的。适合某一个场景,各自有的数据不一样,所以训练出来的能力也不一样,你让我们去做可灵这类型的产品大模型也不现实,所以互相调用呗。
卫诗婕:三维空间对于真实世界的价值到底是什么?
黄晓煌:真实世界是不可计算的,只有把它变到虚拟世界里,你才有办法处理它。
卫诗婕:我们在探索的许多前沿技术其实都是一个数字技术,但是把这个数字技术落到物理空间需要一个桥梁,那个镜像世界就是。你要先模拟出一个数字镜像世界,才能把两者嫁接起来。花了多久去了解机器人世界对于数据和空间智能的需求?
黄晓煌:基本每周都在谈潜在的需求方,各家的需求、进展也不太一样。
卫诗婕:机器人领域原来使用仿真数据,其实是有一个 sim-to-real gap 。因为仿真数据是一些纯生成的数字数据,这么训是 work 的。但是把它放到真实世界里面之后会出问题。
黄晓煌:对。这个 gap 就是训练方法的问题,我们也叫泛化性的问题。我们很强调泛化性训练 sim-to-real 的时候,还是得混入一些真实的数据去训练的,否则一定有 gap 。
卫诗婕:用上这些数字数据是完全没有问题的。
黄晓煌:肯定是没有问题的,你可以让这些底模或者整个模型的数据量更大,但是得用多种来源的数据一起训练机器人才有焕发性。为什么有些人在虚拟世界里训练出来的模型在现实世界里没法用?那是因为数据集里面根本就没有现实世界的数据。
卫诗婕:听说你们好像跟几乎所有具身智能行业的大脑公司都有合作。他们会跟你反馈使用数据的一些真实的效果。怎么判断你的数据的使用效果呢?
黄晓煌:主要看他会不会持续地采购更多的数据,所以我们还是需要得到合作伙伴的真实反馈,这样可以更好优化这个体系。因为现在这个行业大家也都在摸索,但我觉得这其实好事,反而是个机会。
卫诗婕:刚才我们有聊到空间语言大模型 SpatialLLM、空间生成大模型 spatialGen ,还有一个构成是你们的 ,它是一个平台,会给具身智能业务做一些服务。一句话解释这个 SpatialVerse 它是做什么的?
黄晓煌:为空间智能领域提供合成数据。
卫诗婕:里面其实会包含 SpatialGen 生成的数据。这一块收入利润好吗?
黄晓煌:说实话,做机器人的公司都收入一般。Spatialverse 的团队是服务我们内部的模型团队的,这几年需求多了之后,把它抽出来作为一个独立的业务。我们花了很多资源跟研发,建了数据合成的基础设施,只给自己用太浪费了。很多也开源出来了,剩下提供对外提供服务。
卫诗婕:据我了解,不是只服务具身业务的,还有 AIGC 和 VR 、AR,对吗?快手、可灵,类似于这样的公司,也有可能会采集到这个服务。
黄晓煌:对,Google 跟我们合作之后,它在发的论文里也感谢了 SpatialVerse ,很多都有合作,只不过都没签 NDA 。
卫诗婕:那 VR 、AR 是不是也可以理解为几乎整个行业都有机会跟你合作的?这三块就已经够大的了。
黄晓煌:其实绝对数量也不多,因为老的业务服务了将近 5 万个客户,现在任何一个行业有 1, 000 个客户就不错了,所以我们还希望它更通用一些。
卫诗婕:刚才其实讲到了你们最主要的三大产品,这三个是构成了大的空间智能战略吗?
黄晓煌:对。 SpatialLLM 、 SpatialGen 相当于在这个品牌下面的一个模块。
卫诗婕:SpatialVerse 跟酷家乐是平行的业务线,你会花更多时间在哪里?
黄晓煌:总体时间更多的可能还是酷家乐。
卫诗婕:把这些空间大模型开源的时候,有做什么心理斗争吗?
黄晓煌:其实以前还是有蛮多斗争的。后面 DeepSeek 成功了之后给大家一个很好的示范。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/271117.html