
编辑 | 云昭
算力竞争,早已经不是简单的“买卡”游戏了!
提及谷歌,很多人可能会跟小编一样很好奇:虽然说家大业大,但相较于 OpenAI、Anthropic 极其明显的算力焦虑,谷歌是如何做到丝毫不慌的?
既不高调囤算力,又大方把 TPU 卖给 Anthropic,谷歌背后究竟是如何将自己打造成一个非受限算力体系的?
当全世界的 AI Lab 都在为了几千张 H100、B200 的订单在黄仁勋的办公室外排队时,谷歌却在自家云园区里,云淡风轻地摊开了一张跨越 11 年的底牌。
昨天,Google Cloud CEO Thomas Kurian 在一场闭门采访中给出了答案。Thomas 认为,其中一个关键原因是:谷歌很多年前就开始为AI时代做长期规划,确保自己不受物理层面的限制。
注意,这里物理的层面限制,不仅是坚持自研芯片,能源来源多样化、用于建设数据中心的土地锁定、创新数据中心的建造方式、缩短机器部署的周期等等,都是谷歌在全链路提前布局的结果。

相信关心 TPU 的朋友可能也清楚,就在几天前,谷歌刚刚发布了最新一代的TPU:TPU8。跟以往不同的是,TPU8拆分成了两条线:用于预训练的TPU-8t,和用于推理的TPU-8i。
对此他透露到:客户对于 8i 的需求远超预期。
Thomas 补充到,虽然两款芯片各有侧重,但其实客户们是混合用途使用v8系统的:白天客户们用于推理,晚上则用来训练。
主持人 Matthew 期间还问了一个业界关心的问题:同样作为 AI Lab,谷歌为何要给竞对公司 Anthropic 提供算力?
他坦承,谷歌的确和 Anthropic 是既合作又竞争的关系。这是所有平台型公司都会遇到的问题。同样地,苹果公司也在用谷歌的 Gemini 模型,但这项合作反而也会冲击安卓生态。
而更本质的原因是,你必须赚钱,才能支撑这一切。“Google 确实赚很多钱,但你仍然需要持续产生现金流。”对外提供算力,是谷歌获取现金流的一个重要杠杆。

这次访谈中,谷歌释放了几个非常明确的内部信号。
其一,谷歌并没有把TPU的护城河单独押注在芯片层面。其真正优势是从硬件、通信网络到软件工具链的整栈的协同创新。
其二,从谷歌客户的算力使用场景也在发生明显变化,从而芯片设计的逻辑也需重新设计。比如长达 6–12 小时的任务,就需要长期保存在内存中,这样 KV cache 的设计就变得非常关键;
再比如,智能体需要操作计算机,这就绕不开跟 Intel 的合作,同时谷歌也在做自己的 ARM 芯片。还有多步骤推理,高效管理内存中的对象以降低推理成本则是重点优化问题。
值得注意的是,Thomas 透露了一个关键的设计细节,因为现实中,推理跟训练不同,它需要分布到更多地点以降低延迟,不会集中在一个数据中心,所以 8i 采用了风冷部署而不是水冷,这样就可以在更多数据中心运行。
总之,智能体时代,高吞吐量、低延迟、低能耗,成为了现在 AI Infra 的三点刚需要求。
其三,谷歌正在打造全球规模最大的下一代 Gemini 模型。至于参数规模,主持人给出的假设是 10 万亿。
预训练放缓了吗?Thomas 并不这样认为。不管是芯片设计、系统设计或算力供给角度,都没有。
同时在数据方面,他认为的确发生了变化,除了以前消费端的文本、音视频等非结构话数据还在增长以外,企业场景下复杂的结构化数据也正在增强 Gemini 的能力。
那么,谷歌云内部最近都在忙什么?Thomas 透露,忙着招人!
“我们在增加人员。我们在销售、产品商业化、以及部署工程团队方面都在扩招。”

至于新方向是什么?
他透露到,模型的确很强大,但同时也发现了很多代码漏洞,这就意味着一个新问题:网络安全风险会增加。
所以谷歌在忙着在这个领域做三件事:
第一,利用 Gemini 帮助检测代码问题。第二,开发模型来修复代码,因为发现问题之后人类可能来不及修复。第三,通过收购 Wiz,增强持续漏洞检测能力。未来,甚至会围绕“持续红队测试”场景推出三类智能体。
此外,Thomas 还爆料了谷歌内部在AI时代独有的工程师文化。尽管 AI 显著提升了开发效率,但谷歌内部仍坚持严格的以人类监督为核心的同行评审系统,因为复杂工程无法完全依赖prompt替代理解。
言外之意,复杂任务还得靠资深工程师监督AI!
而且,他们内部从不以代码行数衡量生产力,而更强调资深工程师的“结构性简洁”。
料还很多,比如,AI Infra 的下一个重大瓶颈在于消费侧的虚拟机领域,AGI不会造成大规模失业等等。
这里不再多说。
以下是这场来自谷歌视角下、后 Mythos 时代下的大模型 Infra 的规划思考。
别的Lab都缺卡,为什么谷歌算力储备缺很足?
因为提前11年就开始准备了
主持人:
好的,Thomas,谢谢你今天接受我的采访。我们现在在 Google Cloud 园区,非常感谢你抽出时间。
Thomas:
谢谢邀请我。
主持人:
我最近一直在思考的第一个问题是:TPU 的算力容量。当你看像 Anthropic、OpenAI 这些前沿实验室时,他们一直在说自己受限于算力。
Thomas:
是的。
主持人:
但与此同时,你再看 Google,你们有完整的技术栈,有自研芯片,而且你们不仅在跑自己的推理,还在做训练、对外卖推理服务,还允许一些竞争对手基于你们的芯片构建产品,甚至还在卖自己的芯片。
你们怎么会有这么多算力?或者说,你们是如何思考这个问题的?为什么其他前沿实验室总是算力不够?
Thomas:
你可以从一个角度来看:我们到底在对全球多大比例的需求进行变现。在一些场景中,我们直接把 token 和芯片一起变现;在另一些场景中,我们是在别人的模型上变现 token,但底层用的是我们的芯片。
其中一个关键原因是:我们很多年前就开始做长期规划。
当我们预见到 AI 这个时代要到来时,我们评估了多个因素,确保自己不会受到物理层面的限制。比如:
我们多元化了能源来源;我们提前锁定了土地来建设数据中心;我们改变了数据中心的建造方式。我们不再主要依赖传统“施工”,而是转向“制造”。因为制造的速度永远比施工更快;我们还缩短了机器部署的周期。
所有这些努力都帮助我们在算力容量上建立优势。
在芯片层面,我们一直和 NVIDIA 合作,但同时也坚持自研芯片。这件事我们已经做了大概 11 或 12 年了。我们的第八代 TPU 会在活动上发布。
主持人:
对,这个我们等会会聊。
Thomas:
所以我们已经形成了一种“反复迭代、持续交付优势”的能力。更有意思的是,现在对 TPU 的需求不仅来自 AI 实验室,还来自其他行业。
比如 Citadel 在资本市场中使用 TPU;还有能源部以及高性能计算客户。所以 TPU 正在变成一种更通用的基础设施,而不仅仅是 AI 算法专用。
TPU变现方式走向多元,利润率都很高
“客户更希望把TPU放到自己数据中心里”
主持人:
既然你们可以通过多种方式对 TPU 进行变现,比如卖 TPU、给 Anthropic 或 OpenAI 提供推理基础设施、或者跑自己的 Gemini 模型,这些不同路径之间的收益对比是怎样的?
Thomas:
我们在这些方向上做的是“平衡投资”。无论哪种方式,我们的利润率都很高,因为我们拥有自己的 IP。
我们不是在分销别人的技术,而是掌握核心技术。这也帮助我们同时提升收入和运营利润。
另外,我们还在拓展 TPU 的应用场景。比如在资本市场里,以前的算法交易主要依赖数值计算,而这些计算长期受制于摩尔定律,性能提升越来越慢。
但现在,如果从“数值计算”转向“推理”,你可以获得更大的性能提升。
很多顶级机构已经在这么做。他们甚至希望把我们的机器部署在更靠近交易所的地方。因此我们开始把 TPU 放到客户自己的数据中心里——这其实是一种不同的商业模式。
从更宏观的角度看:产品多样化会带来更多需求洞察;变现方式多样化会推动增长。
比如在供应链层面,因为我们的需求不仅来自自身,还来自整个市场,供应商会认为 Google 的需求规模更大,从而给我们更有利的条件。
为什么谷歌不囤算力?
主持人:
我想再追问一下这个点。如果算力需求是无限的,哪怕只是用于研发,那为什么不把算力全部留给自己?
尤其是,如果 AGI 是所有 AI Lab 的目标,谁先实现并规模化,谁就赢了。那把算力全部留给自己、只服务自家模型,不是更有优势吗?我是不是忽略了什么?
Thomas:
你必须赚钱,才能支撑这一切。Google 确实赚很多钱,但你仍然需要持续产生现金流。对外提供算力,是我们获取现金流的一个重要杠杆。我们分配给外部的算力,始终是在和自身需求、资本需求之间做平衡。
而且,无论你在哪个 AI Lab,风险投资都不可能无限期支持你。
主持人:
确实。
Thomas:
随着算力成本上升,如果你是一个亏损模式:比如推理赚的钱不够覆盖训练成本,这个缺口越大,你能依赖的资金来源就越少。
未来十年:拥有自己的芯片会更有利
否则,本质上是转售他人的能力
主持人:
我一直在说,Google 的位置非常独特:你们有现金牛业务、有芯片、有模型。那你们的 Gemini 团队会不会也来找你说“算力不够”?
Thomas:
需求永远存在。我认为未来 10 年,需求都会持续大于供给。如果你拥有自己的芯片,这是一个很有利的位置。如果你没有,你本质上是在转售别人的能力。在算力受限的环境中,你的单位经济成本会更高。而我们因为控制芯片,单位经济性依然很好。
这会成为我们的长期优势。
云业务占到了Alphabet开支的一半
主持人:
如果从整体来看,你们 TPU 算力在训练、推理、对外销售、以及为其他实验室提供服务之间,大致是怎么分配的?
Thomas:
我们不会披露具体细节。但从宏观上看,云业务大约占 Alphabet 资本开支的一半,而且增长很快。
在我们内部,增长的重要部分来自 Gemini 和我们的模型业务。你可以把这个作为一个粗略参考。
谷歌自曝数据中心建设策略点:
不直接从电网取电、新能源供给模式、PUE、投资社区
主持人:
你刚才提到数据中心和数据中心建设。你能解释一下,当你说数据中心时,“施工(construction)”和“制造(manufacturing)”有什么区别吗?
Thomas:
可以,本质上是你用什么粒度来部署算力能力。比如你可以把一整机架的机器组装好,然后再放进数据中心;也可以把一整排机器提前集成好,再部署进数据中心。
你能用的部署粒度越大,就越能在中心化地点提前完成预制,这样部署速度就会更快。
主持人:
在你们规划新数据中心部署的时候,我猜你比很多人更清楚,美国现在对数据中心的整体情绪其实不太好,大概只有 20% 的支持率。
你怎么看这个问题?更重要的是,你认为整个 AI 行业该怎么改变公众对 AI,尤其是对数据中心部署的看法?毕竟这也关系到美国的战略优势。
Thomas:
我整体上对 AI 是非常乐观的。公众对数据中心的担忧主要集中在两点:
第一,州或地方的能源成本会不会上升。第二,数据中心所在社区是否会获得足够就业机会。
针对这些问题,我们在做几件事:
首先,我们在投资“表后电源(behind-the-meter)”技术,这样我们不直接从电网取电,而是自建能源系统,并且在电网需要时可以反向供电支持。
其次,我们在投资替代能源形态。我们认为传统“发电—输配电”的模式不一定是唯一方式。AI 的需求正在推动新的能源供给模式出现,这些模式未来也可以服务更广泛的市场。
第三,我们非常重视能源使用效率,也就是 PUE(Power Usage Effectiveness)。
简单说就是:如果你需要 100 兆瓦计算能力,你额外需要多少能源浪费?在这方面,我们是全球最领先的之一。这里涉及很多细节,包括热交换、散热系统、热力学设计等等。
最后,我们也在投资社区。我们尽量避免让某一个地区感觉 Google 在集中“压榨资源”,而是把数据中心分布在多个地方,让影响更均衡。
我自己也会经常去数据中心,看当地经济发展情况。你能看到学校里的孩子、数据中心员工,以及我们带来的就业机会。
我们认为这本身就是责任的一部分。
关键:找到AI真正对社会有益的场景
主持人:
这些都是地方层面的影响。但更广泛的社会情绪呢?你刚才说的是进入社区带来就业、投资和电价影响有限。但如何改变美国整体公众对 AI 的看法?
Thomas:
这是一个长期过程。关键是找到 AI 可以真正“对社会有益”的应用场景,而不是让人只担心失业。
我举几个例子:
我们在德国和一家叫 Signal(德国最大健康保险公司) 合作,他们在企业内部使用基于 Gemini Enterprise 的智能代理。
一开始他们也担心会裁员,但最终没有裁掉任何人。相反,他们发现效率大幅提升:过去回答一个医疗资格问题可能需要 23 分钟,现在只需要几秒钟。
这不仅提升了效率,也提高了客户服务质量,而且没有减少岗位。
我们还和美国临床肿瘤学会(ASCO)合作,他们有 5.1 万名肿瘤科医生成员。他们希望 AI 帮助医生在诊疗时快速查标准治疗指南。
比如:一个患者有乳腺癌,同时又有糖尿病,那么某些化疗方案就不能用。这些规则非常复杂,而且相互交叉。我们帮助他们构建系统,但要求非常高:答案必须 100% 正确,不能出现“幻觉”。AI 在这里的作用是帮助医生更好地照顾患者,而不是替代医生。
还有一个例子是“财富顾问”。现实中,高净值人群可以使用私人银行的财富管理服务,但普通人往往得不到高质量投资建议。现在像 Citigroup(花旗集团) 正在构建基于 Gemini 的财富顾问系统,可以帮助普通人做理财决策,甚至执行投资动作。
这些都是社会可能真正受益的方向。
但要让公众接受 AI,需要时间,需要在“替代工作恐惧”和“创造价值能力”之间找到平衡。
谷歌云:不裁员,我们在扩招
发力网络安全,推三类智能体
主持人:
我同意你的看法,但“失业”这个问题在美国公众中确实非常焦虑。我直接问一个问题:对于 Google Cloud 来说,既然 AI 已经让工程师和其他岗位效率提升,你们是在招聘更多人,还是在裁员?整体状态是什么?
Thomas:
我们在增加人员。我们在销售、产品商业化、以及部署工程团队方面都在扩招。
在新产品领域,我们也在增加能力。举个例子:
很早以前我们就意识到,当模型越来越强时,它们不仅能理解代码,还能发现代码漏洞。这意味着一个新问题:网络安全风险会增加。
我们为此做了三件事:第一,利用 Gemini 帮助检测代码问题。第二,开发模型来修复代码,因为发现问题之后人类可能来不及修复。第三,通过收购 Wiz,增强持续漏洞检测能力。
未来你会看到我们在这方面推出更多能力。你知道的,现在大家说这个叫“持续红队测试”。我们会展示三类智能体:第一类是持续攻击系统、帮你发现漏洞并确保修复,不会让你措手不及——这是以前做不到的;第二类是对已发现问题进行优先级排序,告诉你哪些必须优先修;第三类是帮助你直接修复这些问题。
主持人:
很高兴听到你们仍然在招聘,而且生产力在提升,同时也在扩张。
我看到一些公司,比如 Block(Square),Jack Dorsey 发了一篇博客,说公司裁掉了一半员工,并把原因归结于 AI。
你怎么看这种差异?为什么 Google 是“生产力提升 + 继续招聘”,而 Block 选择“缩减一半规模提升效率”?差别在哪里?
Thomas:
每家公司对自身产品和需求的判断不同,CEO 也会做出不同决策。我们这边需求非常强,所以我们在持续投资和扩张。
TPU VS Nvidia:谁是总体拥有成本最优的选择?
很多外部的AI Lab也都在用TPU
主持人:
我们聊聊 Nvidia。Jensen 在和 Tareq 的播客里提到,Nvidia 在“每 token 成本”和总体拥有成本(TCO)上是最优的,这和 CUDA、NVLink 网络等有关。
你同意这个说法吗?Google 在 TCO 上是最优的吗?如果不是,你们怎么追?
Thomas:
我们的很多客户都说 TPU 是总体拥有成本最优的选择。
主持人:
所以算是回答了(笑)。
Thomas:
现实情况是,如果你是 AI Lab,你会选择最好的平台。不仅仅是我们自己的团队,很多外部 AI Lab也在用 TPU,而且需求远超供给。如果 TPU 成本不具竞争力,他们不会来用。
TPU的优势不在单点芯片,而是整栈
一个系统有2PB内存,吞吐极快
主持人:
TPU 的优势是不是速度?我感觉 Gemini 系列模型速度非常快。
Thomas:
是的,质量仍然是核心,但整体是三点组合,而不是单一芯片问题,而是系统问题。举个例子:
TPU v8 系统有 9600 颗芯片,8i 有 1152 颗芯片,它们都在一个光学拓扑网络中。这意味着:带宽极高、延迟极稳定,因此从内存读取、处理再写回内存都非常高效。
比如 8T 训练芯片,一个系统可以容纳 2PB 内存,相当于美国国会图书馆数字化数据的 100 倍。再加上低延迟网络,你的数据吞吐非常快。
更上一层的软件栈也很关键。Google 提供了一整套工具链:JAX、PyTorch 优化、XLA、Pathways等,这些都是我们多年积累的编译器和分布式训练系统。
再往上,还有针对推理和 VLM 的大量优化。
所以 TPU 的优势来自整个栈,而不是单点芯片。
我们用一个指标叫 goodput(有效吞吐) 来衡量整体效率。另外,几年前我们就判断能源会成为瓶颈,所以优化了“每瓦能产出多少 token”。
主持人:
TPU 是 11 年前开始规划的,对吧?现在看这个长期决策已经非常成功。这些年你的规划会不会频繁调整?还是说基本保持稳定?
Thomas:
我们的技术栈是逐层积累的。比如 TensorFlow 让我们意识到需要大规模分布式训练模型,于是我们后来做了 JAX。这些能力是不断叠加的。
第八代TPU拆分成了两条线:推理和预训练
但其实是通用芯片:用户白天推理,晚上做训练
Thomas:
我们也会非常关注市场反馈。比如我们为什么做 8i 推理芯片?
因为我们看到一个现实:无论多强的公司,最终都必须依靠推理收入来覆盖训练成本。不能永远依赖风险投资。
所以我们设计了专门针对推理优化的芯片。结果是:8i 的需求远超预期。
主持人:
第八代 TPU 很有意思。现在你们分成了两条产品线:一条用于推理,一条用于预训练。先确认一下,Ironwood 是偏推理的吗?
Thomas:
Ironwood 其实是混合用途,既可以训练也可以推理。很多使用场景是动态的,比如白天用户活跃时做推理,晚上做训练或批处理。
所以它是通用芯片。8T 主要偏训练,但也有人用来做推理。8i 主要用于推理,但小模型也可以用来训练。
Gemini发展的三个阶段
模型最终会把世界抽象成一台计算机
主持人:
你们拆分芯片设计,这说明未来工作负载发生了什么变化?未来 5 年你怎么看训练和推理的比例?
Thomas:
这个变化也体现在 Gemini 模型的发展上。如果看 Gemini,我们可以看到模型经历了三个阶段。
第一阶段是用户向模型提问,模型回答,可能会有多轮对话,但本质上更像是一个“搜索型聊天机器人”。我们的 Gemini Enterprise 产品就提供这种能力,可以做搜索和问答,也加入了深度研究(deep research)来进行复杂分析。
第二阶段是内容生成。过去人们主要用扩散模型来生成图像、音频、视频,而随着多模态能力增强,模型本身开始同时支持“媒体输入 + 媒体输出”。例如像 WPP这样的创意公司,以及各类消费品公司,都在用 Gemini Enterprise 来做内容生产,现在内容生成已经非常普遍。
第三阶段是模型开始理解“世界的抽象”。也就是说,模型需要连接企业内部各种系统,比如 CRM、供应链、计划系统等。更进一步,最终的抽象是——把整个世界当成一台计算机,因为只要模型能操作计算机,就能操作所有软件系统。
主持人:
你的意思是,这种“终极抽象”就是模型可以控制计算机(比如浏览器操作),同时还能理解这些系统返回的信息,而不仅仅是调用它们?
Thomas:
对,这就引出了“智能体”的概念。智能体可以被看作一个模块,你可以把任务委托给它,它具备一组 skills,会使用一系列工具,包括操作计算机,从而替你完成任务。
随着模型能力提升,我们也在“协同设计”系统,让模型能完成更多事情。这也直接影响了我们把芯片拆分为训练和推理两类的决策。
芯片拆分背后的逻辑:场景需求变了
推理需求变成了长时程、多步骤、多地点
Thomas:
在第一阶段(搜索问答),输入 token 多于输出 token,因为用户会输入很长的问题,模型输出相对较短答案。
到了内容生成阶段,情况反过来:用户输入一个简单 prompt,但模型要生成大量输出 token,比如生成视频,这就改变了 token 结构。再加上多模态,输出规模大幅增加。
到了智能体阶段,又进一步改变了芯片设计逻辑。例如:
- 任务可能持续 6–12 小时,需要长期保存在内存中(KV cache 设计变得关键)
- 智能体需要操作计算机,而计算机本身是传统通用计算设备,因此我们不仅和 Intel 合作,也做自己的 ARM 芯片
- 多步骤推理需要高效管理内存中的对象,以降低推理成本
还有一个现实需求是:推理需要分布在更多地点以降低延迟,而不是像训练那样集中在少数数据中心。因此像 8i 支持风冷部署,可以在更多数据中心运行,而不是依赖水冷。
谷歌面向智能体时代的三项极致优化:训练吞吐高达10TB/s,推理芯片则高达15TB/s
主持人:
我觉得智能体这一点特别关键,它彻底改变了 token 的使用方式。NVIDIA 一直强调“极致协同设计”,但 Google 看起来是在整个技术栈做这件事。
在智能体场景下,比如频繁读写存储、调用工具链,你们最近在 TPU 栈上优化了什么?以及下一个瓶颈会在哪里?
Thomas:
我们一直在从“整个系统”层面做优化。举两个例子:
第一,我们下周会发布新的存储方案,其中一个是托管的 Lustre 系统,吞吐可以达到 10TB/s,主要用于大规模训练,可以把大规模数据集高效加载到训练集群中。
第二,我们推出了一个超低延迟推理存储系统,叫 Rapid Storage。它可以把数据集中存储在云端,但在推理节点附近进行“挂载”,类似前置代理,这样从推理芯片访问数据时延极低,吞吐可达 15TB/s。
此外,我们还推出了新的网络架构 Virgo,实现大规模集群间的超低延迟连接。整体目标是让智能体运行具备**性能和成本结构。
消费级 AI:用户无法接受成本超配,
要想真正普及,必须重新设计成本结构
主持人:
那下一个最大的瓶颈在哪里?
Thomas:
会出现在“消费者级智能体”的使用上。比如一个用户让智能体帮他规划旅行,需要访问多个网站(API 或 MCP),计算预算等。
但问题是,普通用户无法长期运行虚拟机(VM),成本太高。所以他们希望在任务执行时动态启动和关闭 VM,而这些工具又依赖本地存储,这就成为新的挑战。
这些虚拟机可以被“超额分配”(oversubscribed),同时你也可以配本地磁盘,从而实现高效读写。但这会成为一个瓶颈,因为它直接影响技术的普及程度。企业可以为此买单,成本越低、效率越高,他们用得越多;但如果要面向普通消费者,成本会很快变得不可接受。
如果你想让这项技术真正普及,就必须从架构上重新设计成本结构。而我们之所以能做到这一点,是因为我们可以从智能体 → Gemini → 存储 → 计算系统整个链路进行协同设计。
如何看待 Anthropic 跟谷歌之间的关系?既是客户又是竞争者!TPU,怎么分?
主持人:
谢谢你的分享。我想聊一下 Anthropic。它是 Google 的客户之一。
Thomas:
是的。
主持人:
它其实很特殊,因为Anthropic的 Claude 模型一方面是 Google 的重要竞争对手,但另一方面你们又在为它提供训练和推理基础设施。你怎么看这个关系?
这是类似Amazon Web Services那种“为所有人提供基础设施、不做偏向”的策略吗?还是不一样?
Thomas:
Google 本质上是一家平台型公司。作为平台公司,你的不同业务会在不同层面与市场参与者既竞争又合作。
我们致力于在模型层做到最领先,比如Gemini以及围绕它的一整套企业工具体系。同时,也有客户希望使用我们的 TPU,Anthropic 就是其中之一。这就是平台公司的常态。
类似的例子还有我们与Apple的合作。Apple 也在使用我们的模型,但这同时又与 Android 生态形成竞争。这就是平台公司的运作方式。
主持人:
但 Anthropic 不一样,它在企业市场直接和你竞争。未来如果算力变得紧张,你们可能必须做出选择:是优先给 Anthropic,还是优先给 Gemini?这个决策怎么做?
Thomas:
我们有高管团队,包括 Sundar Pichai,会一起做这些决策。任何成熟公司每天都会面临类似的权衡。
我们面对的不只是 Anthropic,还有很多客户的需求。如何在 Gemini、自研需求以及外部客户之间分配算力,这是复杂决策的一部分。
但有一点很明确:拥有自己的芯片并且有需求,比没有芯片要好得多。
10 万亿参数模型?TPU可以支撑全球最大的模型下一代Gemini模型即将发布
主持人:
关于 Mythos,有传言说这是一个 10 万亿参数级别的模型。Google 现在是否已经进入这个规模?
Thomas:
你会很快看到我们在 Gemini 上的新进展,无论是在 Next 大会还是之后的发布。我们对 Gemini 的能力非常有信心,它已经长期处于行业领先水平,而且新版本也即将发布。
主持人:
假设真的有 10 万亿参数模型,从 TPU 的角度看,这在当前是可部署的吗?
Thomas:
我们很早就具备“解耦式服务”能力,可以很好地扩展超大规模密集模型。
我们不会设计一个无法部署的模型。所以我们非常有信心,TPU 可以支撑全球最大的模型,尤其是最大的 Gemini 模型。
而且我们的 serving 系统在 TPU 上的效率,在行业中是最优的之一。
预训练没有放缓,下一代转向企业场景数据
主持人:
那预训练扩展有没有放缓?行业之前有声音说预训练增长在放慢,大家转向强化学习和推理时间优化。
Thomas:
从芯片设计、系统设计或算力供给角度来看,我们没有看到放缓。
主持人:
那数据层面呢?比如合成数据的使用?
Thomas:
我们确实看到一些变化。过去模型主要使用非结构化数据,比如文本、音频、视频,这些仍然在增长。
但在企业场景中,很多问题其实更复杂。例如,如果模型从文档中回答问题,你可以直接给出引用链接;但如果问题涉及库存预测,它可能需要访问类似SAP的系统,从多个表中动态查询数据。
这就带来新的挑战:如何正确拆解查询?如何解释数据来源?如何确保答案可验证?
这些问题比简单文档引用复杂得多。
因为我们深耕企业场景,我们可以用这些复杂的结构化数据去训练和优化 Gemini,包括各种复杂字段、表单系统等。企业应用的复杂度远高于消费级应用,而这反过来增强了我们的模型能力。
Google 内部也在用代码 Harness
主持人:
我们继续聊“harness”和智能体编程。我最近也在写代码,有一个很火的说法是:有人在 Google 的朋友认为 Google 在 agentic coding 上并不领先。你怎么看?Google 内部是如何推进这件事的?
尤其是我还是得提到 Anthropic,他们的产品发布速度真的很惊人。Google 是怎么在 agentic coding 这个前沿领域跟进的?
Thomas:
现在我们有很多工程师在用一个内部工具叫 Jet Ski,这是我们的代码 harness。这些反馈会直接回流到 Google DeepMind,形成强化学习闭环,从而每天都在提升 Gemini 在编程方面的能力。在我负责的团队里,也有大量工程师在使用它。
Google 内部工程师文化:
不用代码行数为指标,坚持代码评审,Gemini处理前置工作
主持人:
我自己的体验是,我现在比以往任何时候都更高效,开发速度极快,而且很有乐趣。我甚至不会逐行检查代码,实际上我只检查很少一部分。
但 Google 不一样,你们面对的是高风险系统、产品和服务。你们如何在“站在智能体编程前沿”的同时,又保证代码质量?你们真的还能逐行审查所有上线代码吗?
Thomas:
我们对“软件工程生产力”的衡量方式和外界不太一样。
第一,在像 Google 这样的公司里,一个资深工程师写的代码往往更简洁,而不是更多。所以我们不会用“代码行数”作为指标——能力较弱的工程师反而会写更多代码来完成同样的任务。
第二,我们一直坚持代码提交必须经过同行评审,通常由资深工程师完成,这往往成为瓶颈。现在我们引入 Gemini 来辅助,比如扫描安全漏洞,不只是生成代码,也参与代码审查,这样在资深工程师真正 review 之前,已经完成了大量前置工作。
第三,在长期来看,工程师时间消耗最多、效率最低的事情其实是调试。我们正在用 Gemini 来处理复杂系统问题,比如云系统故障排查。云是世界上最复杂的计算系统之一,我们把这些系统能力开放给模型,让它参与故障分析,从而提升整体效率和模型质量。
完成复杂系统,只靠AI是不成立的
“反而更需要工程师来监督模型”
主持人:
但随着开发速度越来越快,总会有一个点——你不可能再逐行检查所有代码。进一步说,人类对代码本身的理解是不是会越来越弱?如果 AI 生成代码、AI 审查代码、AI 调试代码,人类是不是正在失去对系统的核心理解?
Thomas:
这是整个行业必须面对的风险。
有一种说法是:你只需要写 prompt,不需要理解代码。但在复杂系统中,这是不成立的。因为 prompt 无法覆盖所有潜在行为,比如异常处理。
过去有人说未来不需要那么多软件工程师,但现实是:模型反而发现了更多安全漏洞,我们反而更需要工程师来配合这些工具。
比如我们正在开发可以自动修复安全漏洞的模型,但仍然需要人类来使用和监督它。行业有时候会“过度摆动”,一会儿说不需要人,一会儿又发现离不开人。
我们的策略是长期视角,比如是否需要“监督模型”来专门审查代码,或者模型是否能够检测自己生成代码的问题——这些都是我们在研究的方向。
Thomas:
我们的目标始终是构建最好的模型,并在大规模场景中应用它。在我的团队里,每天有成千上万人在使用这些工具。如果你走到园区里,会看到工程师同时开着多个窗口:写代码、编译、部署测试,还有后台运行的代码审查任务。
Jet Ski 这样的工具已经成为日常工作方式的一部分,这其实是软件开发范式在演进。
如何看待后Mythos时代的安全问题?谷歌的三层准备
主持人:
你刚提到网络安全,我们就以这个话题收尾。
Anthropic 曾表示,他们的 Mythos 模型在网络安全能力上过于强大,因此暂时不公开发布。Google 是怎么考虑这个问题的?有没有一个“红线”,一旦 Gemini 达到某种能力,就不再适合公开?
Thomas:
我们确实在思考这个“红线”。但一个关键问题是:如果 Mythos 能发现某些漏洞,那其中有多少其实已经可以被开源模型发现?因为无论你如何保护闭源模型,开源模型一定会被对手使用,而且能力也在不断增强。
所以问题变成:你该如何应对?
我们的优势在于,我们既是云厂商、模型提供者,同时也有网络安全能力,比如 Mandiant 团队,以及通过收购 Wiz获得的能力。
因此我们做了三件事:第一,如果模型能更快发现漏洞,那我们就必须用模型来修复漏洞,因为人类跟不上速度。
第二,如果攻击者可以利用模型发动大规模攻击,所以要防御这种情况,仅仅每个月做一次红队测试是远远不够的。我们需要引入可以“持续红队测试”的智能体,以及可以真正帮助修复问题的智能体。
比如,修复代码只是第一步,更难的是找出旧代码曾经运行的所有地方,把它们全部替换掉,然后部署更新后的版本。这是第二层问题。
主持人:
那这是不是在某种程度上构成了对开源软件的“反对论据”?不是模型,而是软件本身。如果是开源代码,所有代码都暴露在那里,模型可以扫描、发现漏洞并利用它;而闭源就没有这个问题。但另一方面,开源也能更快被修复和加固。你怎么看?
Thomas:
我们在 Google 内部大量使用开源软件,同时也为开源社区贡献了很多。我们会用自己的工具去帮助开源社区修复这些问题。
我只是指出一个现实:攻击者会使用模型,而他们最优先扫描的目标一定是流行的开源库,因为那里攻击面最大。
所以这正是我们需要重点解决的问题之一,我们也在和整个行业一起推进。
Thomas 最担心什么?
主持人:
最后一个问题:什么事情会让你夜不能寐?
Thomas:
我们在同时平衡很多事情。
第一,我们必须确保长期基础设施规划是正确的——包括数据中心、网络,以及是否有足够的 TPU。
第二,我们是否在持续推进真正重要的问题。比如三年前我们就判断,随着 AI 变强,网络安全一定会成为核心问题。
当我们决定收购 Wiz时,很多人不理解,但这是基于这种判断。
第三,我们一直在看是否真正解决了客户的问题。举个例子:在我们的 Gemini Enterprise平台上,从今年 1 月到现在,token 使用量从每分钟 100 亿增长到了 160 亿,企业用户数量环比增长了 40%。
Thomas:
所以我们的核心始终是:是否在解决正确的问题,并且跑在市场前面。因为技术发展太快,如果等问题发生再去解决就晚了。
我们的团队在这方面做得非常好,我们也为他们感到非常自豪,也很期待接下来的发布活动。
主持人:
Thomas,非常感谢你,真的很感谢这次交流。
参考链接:
https://www.youtube.com/watch?v=bNdiBwXbLNw
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/282298.html