2026年AGI不代表失业，我们在大量扩招！谷歌Cloud CEO：下个十年有自己的芯片会更有利！重大瓶颈在消费侧虚拟机！TPU真正壁垒不是单点芯片

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。
 
编辑 ｜ 云昭
算力竞争，早已经不是简单的“买卡”游戏了！
提及谷歌，很多人可能会跟小编一样很好奇：虽然说家大业大，但相较于 OpenAI、Anthropic 极其明显的算力焦虑，谷歌是如何做到丝毫不慌的？
既不高调囤算力，又大方把 TPU 卖给 Anthropic，谷歌背后究竟是如何将自己打造成一个非受限算力体系的？
当全世界的 AI Lab 都在为了几千张 H100、B200 的订单在黄仁勋的办公室外排队时，谷歌却在自家云园区里，云淡风轻地摊开了一张跨越 11 年的底牌。
昨天，Google Cloud CEO Thomas Kurian 在一场闭门采访中给出了答案。Thomas 认为，其中一个关键原因是：谷歌很多年前就开始为AI时代做长期规划，确保自己不受物理层面的限制。
注意，这里物理的层面限制，不仅是坚持自研芯片，能源来源多样化、用于建设数据中心的土地锁定、创新数据中心的建造方式、缩短机器部署的周期等等，都是谷歌在全链路提前布局的结果。
相信关心 TPU 的朋友可能也清楚，就在几天前，谷歌刚刚发布了最新一代的TPU：TPU8。跟以往不同的是，TPU8拆分成了两条线：用于预训练的TPU-8t，和用于推理的TPU-8i。
对此他透露到：客户对于 8i 的需求远超预期。
Thomas 补充到，虽然两款芯片各有侧重，但其实客户们是混合用途使用v8系统的：白天客户们用于推理，晚上则用来训练。
主持人 Matthew 期间还问了一个业界关心的问题：同样作为 AI Lab，谷歌为何要给竞对公司 Anthropic 提供算力？
他坦承，谷歌的确和 Anthropic 是既合作又竞争的关系。这是所有平台型公司都会遇到的问题。同样地，苹果公司也在用谷歌的 Gemini 模型，但这项合作反而也会冲击安卓生态。
而更本质的原因是，你必须赚钱，才能支撑这一切。“Google 确实赚很多钱，但你仍然需要持续产生现金流。”对外提供算力，是谷歌获取现金流的一个重要杠杆。
这次访谈中，谷歌释放了几个非常明确的内部信号。
其一，谷歌并没有把TPU的护城河单独押注在芯片层面。其真正优势是从硬件、通信网络到软件工具链的整栈的协同创新。
其二，从谷歌客户的算力使用场景也在发生明显变化，从而芯片设计的逻辑也需重新设计。比如长达 6–12 小时的任务，就需要长期保存在内存中，这样 KV cache 的设计就变得非常关键；
再比如，智能体需要操作计算机，这就绕不开跟 Intel 的合作，同时谷歌也在做自己的 ARM 芯片。还有多步骤推理，高效管理内存中的对象以降低推理成本则是重点优化问题。
值得注意的是，Thomas 透露了一个关键的设计细节，因为现实中，推理跟训练不同，它需要分布到更多地点以降低延迟，不会集中在一个数据中心，所以 8i 采用了风冷部署而不是水冷，这样就可以在更多数据中心运行。
总之，智能体时代，高吞吐量、低延迟、低能耗，成为了现在 AI Infra 的三点刚需要求。
其三，谷歌正在打造全球规模最大的下一代 Gemini 模型。至于参数规模，主持人给出的假设是 10 万亿。
预训练放缓了吗？Thomas 并不这样认为。不管是芯片设计、系统设计或算力供给角度，都没有。
同时在数据方面，他认为的确发生了变化，除了以前消费端的文本、音视频等非结构话数据还在增长以外，企业场景下复杂的结构化数据也正在增强 Gemini 的能力。
那么，谷歌云内部最近都在忙什么？Thomas 透露，忙着招人！
“我们在增加人员。我们在销售、产品商业化、以及部署工程团队方面都在扩招。”
至于新方向是什么？
他透露到，模型的确很强大，但同时也发现了很多代码漏洞，这就意味着一个新问题：网络安全风险会增加。
所以谷歌在忙着在这个领域做三件事：
第一，利用 Gemini 帮助检测代码问题。第二，开发模型来修复代码，因为发现问题之后人类可能来不及修复。第三，通过收购 Wiz，增强持续漏洞检测能力。未来，甚至会围绕“持续红队测试”场景推出三类智能体。
此外，Thomas 还爆料了谷歌内部在AI时代独有的工程师文化。尽管 AI 显著提升了开发效率，但谷歌内部仍坚持严格的以人类监督为核心的同行评审系统，因为复杂工程无法完全依赖prompt替代理解。
言外之意，复杂任务还得靠资深工程师监督AI！
而且，他们内部从不以代码行数衡量生产力，而更强调资深工程师的“结构性简洁”。
料还很多，比如，AI Infra 的下一个重大瓶颈在于消费侧的虚拟机领域，AGI不会造成大规模失业等等。
这里不再多说。
以下是这场来自谷歌视角下、后 Mythos 时代下的大模型 Infra 的规划思考。
别的Lab都缺卡，为什么谷歌算力储备缺很足？
因为提前11年就开始准备了
主持人：
好的，Thomas，谢谢你今天接受我的采访。我们现在在 Google Cloud 园区，非常感谢你抽出时间。
Thomas：
谢谢邀请我。
主持人：
我最近一直在思考的第一个问题是：TPU 的算力容量。当你看像 Anthropic、OpenAI 这些前沿实验室时，他们一直在说自己受限于算力。
Thomas：
是的。
主持人：
但与此同时，你再看 Google，你们有完整的技术栈，有自研芯片，而且你们不仅在跑自己的推理，还在做训练、对外卖推理服务，还允许一些竞争对手基于你们的芯片构建产品，甚至还在卖自己的芯片。
你们怎么会有这么多算力？或者说，你们是如何思考这个问题的？为什么其他前沿实验室总是算力不够？
Thomas：
你可以从一个角度来看：我们到底在对全球多大比例的需求进行变现。在一些场景中，我们直接把 token 和芯片一起变现；在另一些场景中，我们是在别人的模型上变现 token，但底层用的是我们的芯片。
其中一个关键原因是：我们很多年前就开始做长期规划。
当我们预见到 AI 这个时代要到来时，我们评估了多个因素，确保自己不会受到物理层面的限制。比如：
我们多元化了能源来源；我们提前锁定了土地来建设数据中心；我们改变了数据中心的建造方式。我们不再主要依赖传统“施工”，而是转向“制造”。因为制造的速度永远比施工更快；我们还缩短了机器部署的周期。
所有这些努力都帮助我们在算力容量上建立优势。
在芯片层面，我们一直和 NVIDIA 合作，但同时也坚持自研芯片。这件事我们已经做了大概 11 或 12 年了。我们的第八代 TPU 会在活动上发布。
主持人：
对，这个我们等会会聊。
Thomas：
所以我们已经形成了一种“反复迭代、持续交付优势”的能力。更有意思的是，现在对 TPU 的需求不仅来自 AI 实验室，还来自其他行业。
比如 Citadel 在资本市场中使用 TPU；还有能源部以及高性能计算客户。所以 TPU 正在变成一种更通用的基础设施，而不仅仅是 AI 算法专用。
TPU变现方式走向多元，利润率都很高
“客户更希望把TPU放到自己数据中心里”
主持人：
既然你们可以通过多种方式对 TPU 进行变现，比如卖 TPU、给 Anthropic 或 OpenAI 提供推理基础设施、或者跑自己的 Gemini 模型，这些不同路径之间的收益对比是怎样的？
Thomas：
我们在这些方向上做的是“平衡投资”。无论哪种方式，我们的利润率都很高，因为我们拥有自己的 IP。
我们不是在分销别人的技术，而是掌握核心技术。这也帮助我们同时提升收入和运营利润。
另外，我们还在拓展 TPU 的应用场景。比如在资本市场里，以前的算法交易主要依赖数值计算，而这些计算长期受制于摩尔定律，性能提升越来越慢。
但现在，如果从“数值计算”转向“推理”，你可以获得更大的性能提升。
很多顶级机构已经在这么做。他们甚至希望把我们的机器部署在更靠近交易所的地方。因此我们开始把 TPU 放到客户自己的数据中心里——这其实是一种不同的商业模式。
从更宏观的角度看：产品多样化会带来更多需求洞察；变现方式多样化会推动增长。
比如在供应链层面，因为我们的需求不仅来自自身，还来自整个市场，供应商会认为 Google 的需求规模更大，从而给我们更有利的条件。
为什么谷歌不囤算力？
主持人：
我想再追问一下这个点。如果算力需求是无限的，哪怕只是用于研发，那为什么不把算力全部留给自己？
尤其是，如果 AGI 是所有 AI Lab 的目标，谁先实现并规模化，谁就赢了。那把算力全部留给自己、只服务自家模型，不是更有优势吗？我是不是忽略了什么？
Thomas：
你必须赚钱，才能支撑这一切。Google 确实赚很多钱，但你仍然需要持续产生现金流。对外提供算力，是我们获取现金流的一个重要杠杆。我们分配给外部的算力，始终是在和自身需求、资本需求之间做平衡。
而且，无论你在哪个 AI Lab，风险投资都不可能无限期支持你。
主持人：
确实。
Thomas：
随着算力成本上升，如果你是一个亏损模式：比如推理赚的钱不够覆盖训练成本，这个缺口越大，你能依赖的资金来源就越少。
未来十年：拥有自己的芯片会更有利
否则，本质上是转售他人的能力
主持人：
我一直在说，Google 的位置非常独特：你们有现金牛业务、有芯片、有模型。那你们的 Gemini 团队会不会也来找你说“算力不够”？
Thomas：
需求永远存在。我认为未来 10 年，需求都会持续大于供给。如果你拥有自己的芯片，这是一个很有利的位置。如果你没有，你本质上是在转售别人的能力。在算力受限的环境中，你的单位经济成本会更高。而我们因为控制芯片，单位经济性依然很好。
这会成为我们的长期优势。
云业务占到了Alphabet开支的一半
主持人：
如果从整体来看，你们 TPU 算力在训练、推理、对外销售、以及为其他实验室提供服务之间，大致是怎么分配的？
Thomas：
我们不会披露具体细节。但从宏观上看，云业务大约占 Alphabet 资本开支的一半，而且增长很快。
在我们内部，增长的重要部分来自 Gemini 和我们的模型业务。你可以把这个作为一个粗略参考。
谷歌自曝数据中心建设策略点：
不直接从电网取电、新能源供给模式、PUE、投资社区
主持人：
你刚才提到数据中心和数据中心建设。你能解释一下，当你说数据中心时，“施工（construction）”和“制造（manufacturing）”有什么区别吗？
Thomas：
可以，本质上是你用什么粒度来部署算力能力。比如你可以把一整机架的机器组装好，然后再放进数据中心；也可以把一整排机器提前集成好，再部署进数据中心。
你能用的部署粒度越大，就越能在中心化地点提前完成预制，这样部署速度就会更快。
主持人：
在你们规划新数据中心部署的时候，我猜你比很多人更清楚，美国现在对数据中心的整体情绪其实不太好，大概只有 20% 的支持率。
你怎么看这个问题？更重要的是，你认为整个 AI 行业该怎么改变公众对 AI，尤其是对数据中心部署的看法？毕竟这也关系到美国的战略优势。
Thomas：
我整体上对 AI 是非常乐观的。公众对数据中心的担忧主要集中在两点：
第一，州或地方的能源成本会不会上升。第二，数据中心所在社区是否会获得足够就业机会。
针对这些问题，我们在做几件事：
首先，我们在投资“表后电源（behind-the-meter）”技术，这样我们不直接从电网取电，而是自建能源系统，并且在电网需要时可以反向供电支持。
其次，我们在投资替代能源形态。我们认为传统“发电—输配电”的模式不一定是唯一方式。AI 的需求正在推动新的能源供给模式出现，这些模式未来也可以服务更广泛的市场。
第三，我们非常重视能源使用效率，也就是 PUE（Power Usage Effectiveness）。
简单说就是：如果你需要 100 兆瓦计算能力，你额外需要多少能源浪费？在这方面，我们是全球最领先的之一。这里涉及很多细节，包括热交换、散热系统、热力学设计等等。
最后，我们也在投资社区。我们尽量避免让某一个地区感觉 Google 在集中“压榨资源”，而是把数据中心分布在多个地方，让影响更均衡。
我自己也会经常去数据中心，看当地经济发展情况。你能看到学校里的孩子、数据中心员工，以及我们带来的就业机会。
我们认为这本身就是责任的一部分。
关键：找到AI真正对社会有益的场景
主持人：
这些都是地方层面的影响。但更广泛的社会情绪呢？你刚才说的是进入社区带来就业、投资和电价影响有限。但如何改变美国整体公众对 AI 的看法？
Thomas：
这是一个长期过程。关键是找到 AI 可以真正“对社会有益”的应用场景，而不是让人只担心失业。
我举几个例子：
我们在德国和一家叫 Signal（德国最大健康保险公司） 合作，他们在企业内部使用基于 Gemini Enterprise 的智能代理。
一开始他们也担心会裁员，但最终没有裁掉任何人。相反，他们发现效率大幅提升：过去回答一个医疗资格问题可能需要 23 分钟，现在只需要几秒钟。
这不仅提升了效率，也提高了客户服务质量，而且没有减少岗位。
我们还和美国临床肿瘤学会（ASCO）合作，他们有 5.1 万名肿瘤科医生成员。他们希望 AI 帮助医生在诊疗时快速查标准治疗指南。
比如：一个患者有乳腺癌，同时又有糖尿病，那么某些化疗方案就不能用。这些规则非常复杂，而且相互交叉。我们帮助他们构建系统，但要求非常高：答案必须 100% 正确，不能出现“幻觉”。AI 在这里的作用是帮助医生更好地照顾患者，而不是替代医生。
还有一个例子是“财富顾问”。现实中，高净值人群可以使用私人银行的财富管理服务，但普通人往往得不到高质量投资建议。现在像 Citigroup（花旗集团） 正在构建基于 Gemini 的财富顾问系统，可以帮助普通人做理财决策，甚至执行投资动作。
这些都是社会可能真正受益的方向。
但要让公众接受 AI，需要时间，需要在“替代工作恐惧”和“创造价值能力”之间找到平衡。
谷歌云：不裁员，我们在扩招
发力网络安全，推三类智能体
主持人：
我同意你的看法，但“失业”这个问题在美国公众中确实非常焦虑。我直接问一个问题：对于 Google Cloud 来说，既然 AI 已经让工程师和其他岗位效率提升，你们是在招聘更多人，还是在裁员？整体状态是什么？
Thomas：
我们在增加人员。我们在销售、产品商业化、以及部署工程团队方面都在扩招。
在新产品领域，我们也在增加能力。举个例子：
很早以前我们就意识到，当模型越来越强时，它们不仅能理解代码，还能发现代码漏洞。这意味着一个新问题：网络安全风险会增加。
我们为此做了三件事：第一，利用 Gemini 帮助检测代码问题。第二，开发模型来修复代码，因为发现问题之后人类可能来不及修复。第三，通过收购 Wiz，增强持续漏洞检测能力。
未来你会看到我们在这方面推出更多能力。你知道的，现在大家说这个叫“持续红队测试”。我们会展示三类智能体：第一类是持续攻击系统、帮你发现漏洞并确保修复，不会让你措手不及——这是以前做不到的；第二类是对已发现问题进行优先级排序，告诉你哪些必须优先修；第三类是帮助你直接修复这些问题。
主持人：
很高兴听到你们仍然在招聘，而且生产力在提升，同时也在扩张。
我看到一些公司，比如 Block（Square），Jack Dorsey 发了一篇博客，说公司裁掉了一半员工，并把原因归结于 AI。
你怎么看这种差异？为什么 Google 是“生产力提升 + 继续招聘”，而 Block 选择“缩减一半规模提升效率”？差别在哪里？
Thomas：
每家公司对自身产品和需求的判断不同，CEO 也会做出不同决策。我们这边需求非常强，所以我们在持续投资和扩张。
TPU VS Nvidia：谁是总体拥有成本最优的选择？
很多外部的AI Lab也都在用TPU
主持人：
我们聊聊 Nvidia。Jensen 在和 Tareq 的播客里提到，Nvidia 在“每 token 成本”和总体拥有成本（TCO）上是最优的，这和 CUDA、NVLink 网络等有关。
你同意这个说法吗？Google 在 TCO 上是最优的吗？如果不是，你们怎么追？
Thomas：
我们的很多客户都说 TPU 是总体拥有成本最优的选择。
主持人：
所以算是回答了（笑）。
Thomas：
现实情况是，如果你是 AI Lab，你会选择最好的平台。不仅仅是我们自己的团队，很多外部 AI Lab也在用 TPU，而且需求远超供给。如果 TPU 成本不具竞争力，他们不会来用。
TPU的优势不在单点芯片，而是整栈
一个系统有2PB内存，吞吐极快
主持人：
TPU 的优势是不是速度？我感觉 Gemini 系列模型速度非常快。
Thomas：
是的，质量仍然是核心，但整体是三点组合，而不是单一芯片问题，而是系统问题。举个例子：
TPU v8 系统有 9600 颗芯片，8i 有 1152 颗芯片，它们都在一个光学拓扑网络中。这意味着：带宽极高、延迟极稳定，因此从内存读取、处理再写回内存都非常高效。
比如 8T 训练芯片，一个系统可以容纳 2PB 内存，相当于美国国会图书馆数字化数据的 100 倍。再加上低延迟网络，你的数据吞吐非常快。
更上一层的软件栈也很关键。Google 提供了一整套工具链：JAX、PyTorch 优化、XLA、Pathways等，这些都是我们多年积累的编译器和分布式训练系统。
再往上，还有针对推理和 VLM 的大量优化。
所以 TPU 的优势来自整个栈，而不是单点芯片。
我们用一个指标叫 goodput（有效吞吐） 来衡量整体效率。另外，几年前我们就判断能源会成为瓶颈，所以优化了“每瓦能产出多少 token”。
主持人：
TPU 是 11 年前开始规划的，对吧？现在看这个长期决策已经非常成功。这些年你的规划会不会频繁调整？还是说基本保持稳定？
Thomas：
我们的技术栈是逐层积累的。比如 TensorFlow 让我们意识到需要大规模分布式训练模型，于是我们后来做了 JAX。这些能力是不断叠加的。
第八代TPU拆分成了两条线：推理和预训练
但其实是通用芯片：用户白天推理，晚上做训练
Thomas：
我们也会非常关注市场反馈。比如我们为什么做 8i 推理芯片？
因为我们看到一个现实：无论多强的公司，最终都必须依靠推理收入来覆盖训练成本。不能永远依赖风险投资。
所以我们设计了专门针对推理优化的芯片。结果是：8i 的需求远超预期。
主持人：
第八代 TPU 很有意思。现在你们分成了两条产品线：一条用于推理，一条用于预训练。先确认一下，Ironwood 是偏推理的吗？
Thomas：
Ironwood 其实是混合用途，既可以训练也可以推理。很多使用场景是动态的，比如白天用户活跃时做推理，晚上做训练或批处理。
所以它是通用芯片。8T 主要偏训练，但也有人用来做推理。8i 主要用于推理，但小模型也可以用来训练。
Gemini发展的三个阶段
模型最终会把世界抽象成一台计算机
主持人：
你们拆分芯片设计，这说明未来工作负载发生了什么变化？未来 5 年你怎么看训练和推理的比例？
Thomas：
这个变化也体现在 Gemini 模型的发展上。如果看 Gemini，我们可以看到模型经历了三个阶段。
第一阶段是用户向模型提问，模型回答，可能会有多轮对话，但本质上更像是一个“搜索型聊天机器人”。我们的 Gemini Enterprise 产品就提供这种能力，可以做搜索和问答，也加入了深度研究（deep research）来进行复杂分析。
第二阶段是内容生成。过去人们主要用扩散模型来生成图像、音频、视频，而随着多模态能力增强，模型本身开始同时支持“媒体输入 + 媒体输出”。例如像 WPP这样的创意公司，以及各类消费品公司，都在用 Gemini Enterprise 来做内容生产，现在内容生成已经非常普遍。
第三阶段是模型开始理解“世界的抽象”。也就是说，模型需要连接企业内部各种系统，比如 CRM、供应链、计划系统等。更进一步，最终的抽象是——把整个世界当成一台计算机，因为只要模型能操作计算机，就能操作所有软件系统。
主持人：
你的意思是，这种“终极抽象”就是模型可以控制计算机（比如浏览器操作），同时还能理解这些系统返回的信息，而不仅仅是调用它们？
Thomas：
对，这就引出了“智能体”的概念。智能体可以被看作一个模块，你可以把任务委托给它，它具备一组 skills，会使用一系列工具，包括操作计算机，从而替你完成任务。
随着模型能力提升，我们也在“协同设计”系统，让模型能完成更多事情。这也直接影响了我们把芯片拆分为训练和推理两类的决策。
芯片拆分背后的逻辑：场景需求变了
推理需求变成了长时程、多步骤、多地点
Thomas：
在第一阶段（搜索问答），输入 token 多于输出 token，因为用户会输入很长的问题，模型输出相对较短答案。
到了内容生成阶段，情况反过来：用户输入一个简单 prompt，但模型要生成大量输出 token，比如生成视频，这就改变了 token 结构。再加上多模态，输出规模大幅增加。
到了智能体阶段，又进一步改变了芯片设计逻辑。例如： 
  
    
     
     任务可能持续 6–12 小时，需要长期保存在内存中（KV cache 设计变得关键） 
     智能体需要操作计算机，而计算机本身是传统通用计算设备，因此我们不仅和 Intel 合作，也做自己的 ARM 芯片 
     多步骤推理需要高效管理内存中的对象，以降低推理成本 
    
还有一个现实需求是：推理需要分布在更多地点以降低延迟，而不是像训练那样集中在少数数据中心。因此像 8i 支持风冷部署，可以在更多数据中心运行，而不是依赖水冷。
谷歌面向智能体时代的三项极致优化：训练吞吐高达10TB/s，推理芯片则高达15TB/s
主持人：
我觉得智能体这一点特别关键，它彻底改变了 token 的使用方式。NVIDIA 一直强调“极致协同设计”，但 Google 看起来是在整个技术栈做这件事。
在智能体场景下，比如频繁读写存储、调用工具链，你们最近在 TPU 栈上优化了什么？以及下一个瓶颈会在哪里？
Thomas：
我们一直在从“整个系统”层面做优化。举两个例子：
第一，我们下周会发布新的存储方案，其中一个是托管的 Lustre 系统，吞吐可以达到 10TB/s，主要用于大规模训练，可以把大规模数据集高效加载到训练集群中。
第二，我们推出了一个超低延迟推理存储系统，叫 Rapid Storage。它可以把数据集中存储在云端，但在推理节点附近进行“挂载”，类似前置代理，这样从推理芯片访问数据时延极低，吞吐可达 15TB/s。
此外，我们还推出了新的网络架构 Virgo，实现大规模集群间的超低延迟连接。整体目标是让智能体运行具备**性能和成本结构。
消费级 AI：用户无法接受成本超配，
要想真正普及，必须重新设计成本结构
主持人：
那下一个最大的瓶颈在哪里？
Thomas：
会出现在“消费者级智能体”的使用上。比如一个用户让智能体帮他规划旅行，需要访问多个网站（API 或 MCP），计算预算等。
但问题是，普通用户无法长期运行虚拟机（VM），成本太高。所以他们希望在任务执行时动态启动和关闭 VM，而这些工具又依赖本地存储，这就成为新的挑战。
这些虚拟机可以被“超额分配”（oversubscribed），同时你也可以配本地磁盘，从而实现高效读写。但这会成为一个瓶颈，因为它直接影响技术的普及程度。企业可以为此买单，成本越低、效率越高，他们用得越多；但如果要面向普通消费者，成本会很快变得不可接受。
如果你想让这项技术真正普及，就必须从架构上重新设计成本结构。而我们之所以能做到这一点，是因为我们可以从智能体 → Gemini → 存储 → 计算系统整个链路进行协同设计。
如何看待 Anthropic 跟谷歌之间的关系？既是客户又是竞争者！TPU，怎么分？
主持人：
谢谢你的分享。我想聊一下 Anthropic。它是 Google 的客户之一。
Thomas：
是的。
主持人：
它其实很特殊，因为Anthropic的 Claude 模型一方面是 Google 的重要竞争对手，但另一方面你们又在为它提供训练和推理基础设施。你怎么看这个关系？
这是类似Amazon Web Services那种“为所有人提供基础设施、不做偏向”的策略吗？还是不一样？
Thomas：
Google 本质上是一家平台型公司。作为平台公司，你的不同业务会在不同层面与市场参与者既竞争又合作。
我们致力于在模型层做到最领先，比如Gemini以及围绕它的一整套企业工具体系。同时，也有客户希望使用我们的 TPU，Anthropic 就是其中之一。这就是平台公司的常态。
类似的例子还有我们与Apple的合作。Apple 也在使用我们的模型，但这同时又与 Android 生态形成竞争。这就是平台公司的运作方式。
主持人：
但 Anthropic 不一样，它在企业市场直接和你竞争。未来如果算力变得紧张，你们可能必须做出选择：是优先给 Anthropic，还是优先给 Gemini？这个决策怎么做？
Thomas：
我们有高管团队，包括 Sundar Pichai，会一起做这些决策。任何成熟公司每天都会面临类似的权衡。
我们面对的不只是 Anthropic，还有很多客户的需求。如何在 Gemini、自研需求以及外部客户之间分配算力，这是复杂决策的一部分。
但有一点很明确：拥有自己的芯片并且有需求，比没有芯片要好得多。
10 万亿参数模型？TPU可以支撑全球最大的模型下一代Gemini模型即将发布
主持人：
关于 Mythos，有传言说这是一个 10 万亿参数级别的模型。Google 现在是否已经进入这个规模？
Thomas：
你会很快看到我们在 Gemini 上的新进展，无论是在 Next 大会还是之后的发布。我们对 Gemini 的能力非常有信心，它已经长期处于行业领先水平，而且新版本也即将发布。
主持人：
假设真的有 10 万亿参数模型，从 TPU 的角度看，这在当前是可部署的吗？
Thomas：
我们很早就具备“解耦式服务”能力，可以很好地扩展超大规模密集模型。
我们不会设计一个无法部署的模型。所以我们非常有信心，TPU 可以支撑全球最大的模型，尤其是最大的 Gemini 模型。
而且我们的 serving 系统在 TPU 上的效率，在行业中是最优的之一。
预训练没有放缓，下一代转向企业场景数据
主持人：
那预训练扩展有没有放缓？行业之前有声音说预训练增长在放慢，大家转向强化学习和推理时间优化。
Thomas：
从芯片设计、系统设计或算力供给角度来看，我们没有看到放缓。
主持人：
那数据层面呢？比如合成数据的使用？
Thomas：
我们确实看到一些变化。过去模型主要使用非结构化数据，比如文本、音频、视频，这些仍然在增长。
但在企业场景中，很多问题其实更复杂。例如，如果模型从文档中回答问题，你可以直接给出引用链接；但如果问题涉及库存预测，它可能需要访问类似SAP的系统，从多个表中动态查询数据。
这就带来新的挑战：如何正确拆解查询？如何解释数据来源？如何确保答案可验证？
这些问题比简单文档引用复杂得多。
因为我们深耕企业场景，我们可以用这些复杂的结构化数据去训练和优化 Gemini，包括各种复杂字段、表单系统等。企业应用的复杂度远高于消费级应用，而这反过来增强了我们的模型能力。
Google 内部也在用代码 Harness
主持人：
我们继续聊“harness”和智能体编程。我最近也在写代码，有一个很火的说法是：有人在 Google 的朋友认为 Google 在 agentic coding 上并不领先。你怎么看？Google 内部是如何推进这件事的？
尤其是我还是得提到 Anthropic，他们的产品发布速度真的很惊人。Google 是怎么在 agentic coding 这个前沿领域跟进的？
Thomas：
现在我们有很多工程师在用一个内部工具叫 Jet Ski，这是我们的代码 harness。这些反馈会直接回流到 Google DeepMind，形成强化学习闭环，从而每天都在提升 Gemini 在编程方面的能力。在我负责的团队里，也有大量工程师在使用它。
Google 内部工程师文化：
不用代码行数为指标，坚持代码评审，Gemini处理前置工作
主持人：
我自己的体验是，我现在比以往任何时候都更高效，开发速度极快，而且很有乐趣。我甚至不会逐行检查代码，实际上我只检查很少一部分。
但 Google 不一样，你们面对的是高风险系统、产品和服务。你们如何在“站在智能体编程前沿”的同时，又保证代码质量？你们真的还能逐行审查所有上线代码吗？
Thomas：
我们对“软件工程生产力”的衡量方式和外界不太一样。
第一，在像 Google 这样的公司里，一个资深工程师写的代码往往更简洁，而不是更多。所以我们不会用“代码行数”作为指标——能力较弱的工程师反而会写更多代码来完成同样的任务。
第二，我们一直坚持代码提交必须经过同行评审，通常由资深工程师完成，这往往成为瓶颈。现在我们引入 Gemini 来辅助，比如扫描安全漏洞，不只是生成代码，也参与代码审查，这样在资深工程师真正 review 之前，已经完成了大量前置工作。
第三，在长期来看，工程师时间消耗最多、效率最低的事情其实是调试。我们正在用 Gemini 来处理复杂系统问题，比如云系统故障排查。云是世界上最复杂的计算系统之一，我们把这些系统能力开放给模型，让它参与故障分析，从而提升整体效率和模型质量。
完成复杂系统，只靠AI是不成立的
“反而更需要工程师来监督模型”
主持人：
但随着开发速度越来越快，总会有一个点——你不可能再逐行检查所有代码。进一步说，人类对代码本身的理解是不是会越来越弱？如果 AI 生成代码、AI 审查代码、AI 调试代码，人类是不是正在失去对系统的核心理解？
Thomas：
这是整个行业必须面对的风险。
有一种说法是：你只需要写 prompt，不需要理解代码。但在复杂系统中，这是不成立的。因为 prompt 无法覆盖所有潜在行为，比如异常处理。
过去有人说未来不需要那么多软件工程师，但现实是：模型反而发现了更多安全漏洞，我们反而更需要工程师来配合这些工具。
比如我们正在开发可以自动修复安全漏洞的模型，但仍然需要人类来使用和监督它。行业有时候会“过度摆动”，一会儿说不需要人，一会儿又发现离不开人。
我们的策略是长期视角，比如是否需要“监督模型”来专门审查代码，或者模型是否能够检测自己生成代码的问题——这些都是我们在研究的方向。
Thomas：
我们的目标始终是构建最好的模型，并在大规模场景中应用它。在我的团队里，每天有成千上万人在使用这些工具。如果你走到园区里，会看到工程师同时开着多个窗口：写代码、编译、部署测试，还有后台运行的代码审查任务。
Jet Ski 这样的工具已经成为日常工作方式的一部分，这其实是软件开发范式在演进。
如何看待后Mythos时代的安全问题？谷歌的三层准备
主持人：
你刚提到网络安全，我们就以这个话题收尾。
Anthropic 曾表示，他们的 Mythos 模型在网络安全能力上过于强大，因此暂时不公开发布。Google 是怎么考虑这个问题的？有没有一个“红线”，一旦 Gemini 达到某种能力，就不再适合公开？
Thomas：
我们确实在思考这个“红线”。但一个关键问题是：如果 Mythos 能发现某些漏洞，那其中有多少其实已经可以被开源模型发现？因为无论你如何保护闭源模型，开源模型一定会被对手使用，而且能力也在不断增强。
所以问题变成：你该如何应对？
我们的优势在于，我们既是云厂商、模型提供者，同时也有网络安全能力，比如 Mandiant 团队，以及通过收购 Wiz获得的能力。
因此我们做了三件事：第一，如果模型能更快发现漏洞，那我们就必须用模型来修复漏洞，因为人类跟不上速度。
第二，如果攻击者可以利用模型发动大规模攻击，所以要防御这种情况，仅仅每个月做一次红队测试是远远不够的。我们需要引入可以“持续红队测试”的智能体，以及可以真正帮助修复问题的智能体。
比如，修复代码只是第一步，更难的是找出旧代码曾经运行的所有地方，把它们全部替换掉，然后部署更新后的版本。这是第二层问题。
主持人：
那这是不是在某种程度上构成了对开源软件的“反对论据”？不是模型，而是软件本身。如果是开源代码，所有代码都暴露在那里，模型可以扫描、发现漏洞并利用它；而闭源就没有这个问题。但另一方面，开源也能更快被修复和加固。你怎么看？
Thomas：
我们在 Google 内部大量使用开源软件，同时也为开源社区贡献了很多。我们会用自己的工具去帮助开源社区修复这些问题。
我只是指出一个现实：攻击者会使用模型，而他们最优先扫描的目标一定是流行的开源库，因为那里攻击面最大。
所以这正是我们需要重点解决的问题之一，我们也在和整个行业一起推进。
Thomas 最担心什么？
主持人：
最后一个问题：什么事情会让你夜不能寐？
Thomas：
我们在同时平衡很多事情。
第一，我们必须确保长期基础设施规划是正确的——包括数据中心、网络，以及是否有足够的 TPU。
第二，我们是否在持续推进真正重要的问题。比如三年前我们就判断，随着 AI 变强，网络安全一定会成为核心问题。
当我们决定收购 Wiz时，很多人不理解，但这是基于这种判断。
第三，我们一直在看是否真正解决了客户的问题。举个例子：在我们的 Gemini Enterprise平台上，从今年 1 月到现在，token 使用量从每分钟 100 亿增长到了 160 亿，企业用户数量环比增长了 40%。
Thomas：
所以我们的核心始终是：是否在解决正确的问题，并且跑在市场前面。因为技术发展太快，如果等问题发生再去解决就晚了。
我们的团队在这方面做得非常好，我们也为他们感到非常自豪，也很期待接下来的发布活动。
主持人：
Thomas，非常感谢你，真的很感谢这次交流。
参考链接：
https://www.youtube.com/watch?v=bNdiBwXbLNw
2026年AGI不代表失业，我们在大量扩招！谷歌Cloud CEO：下个十年有自己的芯片会更有利！重大瓶颈在消费侧虚拟机！TPU真正壁垒不是单点芯片

相关推荐