AI 快用不起了。大模型机构密集发出“涨价信号”。
在国内,智谱 4 月 8 日随 GLM-5.1 新模型发布同时宣布涨价 10% ——这是它 2026 年内第三次涨价,CEO 张鹏的解释很直白:“公司存在算力约束和瓶颈。”一周后,大洋彼岸的 Anthropic 出手: Claude 企业版原本 \(200 /人/月的包月套餐,改成 \)20 座位费+按实际算力消耗另行计费,重度 Claude Code 用户的账单可能翻倍甚至三倍。
张鹏说的“算力约束”,不是算力不够,而是GPU 的架构撑不住 Agent 时代的推理。当 AI Agent 开始 24 小时不睡觉地跑,旧算力基础设施的瓶颈开始暴露。这个瓶颈不在算法,也不在算力规模,而是在更底层的芯片架构—— 2025 年底,英伟达以 200 亿美元拿下了美国公司 Groq 的技术授权和核心团队,在复杂的交易背后,他们瞄准的是一种叫LPU(Language Processing Unit)的 AI 推理新架构。
对技术路线的判断迅速成为行业共识。来看国内,2026 年 4 月,国内第一家 LPU 芯片创业公司元川微完成数亿元天使轮系列融资。创始人是有 22 年华为芯片经验的老兵杨滨。投资机构阵容豪华,包括东方嘉富、元禾原点、峰瑞资本等知名机构。其中,元禾原点——十年前的天使轮投出了寒武纪——这样阐释它的逻辑:“十年前,我们开启了对 AI 时代算力基础设施的体系化投资布局,今天选择投资元川微作为 Agent 时代推理芯片落子。”
十年前投寒武纪,十年后投元川微。两个截然不同的时代——但这不是一时兴起的赌注。
太长不看版(本文要回答的问题)
• 用不起 AI 、Token(词元)太贵的根源在芯片。 GPU 是吞吐量优先的设计,但大模型推理是逐 Token 自回归生成—— GPU 的并行优势发挥不出来, HBM 带宽成了物理瓶颈。
• 行业瞄准了一种叫LPU(Language Processing Unit)的新架构:抛弃 HBM,用片上大 SRAM(带宽约是 HBM 的 7 倍)+ 确定性数据流 + 静态调度,将推理速度做到 GPU 的 5~10 倍。
• 中国第一家 LPU 公司是元川微。创始人杨滨有22 年华为无线基带经验,2024 年夏天就判定 LPU 是推理的正确答案。2025 年9 月成立,2026 年 4 月完成数亿元天使轮融资。
• 元川微 LPU+ 是更适应中国大模型生态的推理芯片。 Groq 2016 年为 CNN 设计,而元川微 LPU+ 原生支持大语言模型、MoE 混合专家、多模态——这些都是 Groq 当年没遇到过的问题。
• Agent 时代的算力定价逻辑正在变——市场从买“峰值算力”(Tflops)转向买“完成任务的综合成本”(能力 × 时间 × QoS)。LPU 的架构优势,正在变成定价权。
要理解为什么 LPU 会在这个时点爆发,得从一个刚刚发生不到三周的故事说起。
全世界消耗 Token 最多的人
2026 年 3 月底,Anthropic 不小心把 Claude Code 的源码漏在了 npm 包里——一个粗心的 “ .npmignore ”疏忽,让 51 万行源代码公开流出。整个开发者社区沸腾,Anthropic 紧急通过 DMCA 下架了数千个搬运仓库。
但有一个人做了件反直觉的事。Sigrid Jin——被《华尔街日报》报道的 Claude Code 全球头号 重度用户,一个韩裔加拿大开发者,曾在过去一年单枪匹马烧掉了 250 亿 Token(按 Claude API 定价折算超过百万美元)——他完全不碰泄露的源码,用自己调教一年多的 AI 代理框架 oh-my-codex,几小时内从零用 Python “净室重写”了一遍。他把成果发到 GitHub,取名 Claw Code,24 小时内星标破 10 万,成为 GitHub 历史上增长最快的开源项目。
事后他说:“这是用 250 亿个 Token 烧出来的直觉。”
“榜一大哥”当然是个极端个例。但当一个人的推理账单超过百万美元,当 Claw Code 这类 AI Agent 重度任务开始变成日常工具,一个系统性的问题就浮出了水面:AI 推理的底层成本结构,撑不住正在到来的 Agent 时代。
英伟达200亿美元押注的赛道,,一家中国公司元川微杀了进来
用 LPU 解决推理瓶颈这件事,其实两年前就有人看到了——只是当时几乎没人相信。
随着大模型能力的突破性进展,到了 2024 年,专用 AI 芯片赛道已经热闹了好几年—— Google 的 TPU 、各种 NPU 、Cerebras 的 wafer-scale 、Etched 的 ASIC ——没人知道哪条路线会赢。LPU 方案也是其中之一,它是美国公司 Groq 从 2016 年开始研发的,一种完全不同于 GPU / CPU 的非冯·诺依曼架构,用片上 SRAM 和确定性数据流彻底抛弃了 GPU 的内存层级。
2024 年 2 月,Groq 凭借一段 viral demo 短暂出圈——独立基准测试上达到 241 tokens /秒的输出速度,是第二名的两倍以上,但热度仅限技术圈。紧接着 3 月,黄仁勋在英伟达 GTC 上就公开回应 Groq 这类专用芯片:“有其适用场景,但将难以从软件领域的创新速度中获益”——英伟达当时对 LPU 的态度是明确的轻视。投资圈对 LPU 也没有达成共识:Groq 到 2024 年 8 月的 Series D,估值才 28 亿美元。
一年半后,英伟达以 200 亿美元购买它的技术和团队那一幕,在当时几乎不可想象。
就在这样的氛围里,2024 年夏天,杨滨凭借多年积累,在业内率先做出了自己的判断。他做了 22 年芯片,2012 年回国后带华为无线基带部门,把团队从 200 多人带到近千人,将华为在这个领域做到全球领先。彼时他和一群同事在反复推演一件事:如果推理的真正需求和训练完全不同,那么硬件就不应该“既做训练又做推理”。到 2024 年下半年,他们定下了技术方向:做自研的 LPU 。
但定下方向不等于立刻下场。2024 年下半年到 2025 年初,杨滨和团队有过一段难熬的“等、等、等”——产业共识还集中在训练、在“卷”大模型研发,训练霸主 GPU 难撼动,推理又尚未到转折点。方向看得清,但时机不到。
转折发生在 2025 年春节。那一周,DeepSeek R1 以“开源 + 低成本 + 高性能”横空出世——推理性能对标 OpenAI o1,而它的底座模型 V3 以 671B 总参数、每 token 仅激活 37B 的 MoE 架构,只用了约 600 万美元就完成训练。杨滨回忆:“激动得有点让自己觉得是不是在做梦,因此连夜看了 DeepSeek 的论文,才缓过来。”
他看到的是 AI 推理真正被打开的那一刻—— DeepSeek 证明了高性能推理可以低成本,而一旦推理成本降下来,Agent 时代的算力需求就会真正爆发。等待的焦虑消失了,元川微正式决定下场。
2025 年 9 月,杨滨创办了元川微。三个月后,英伟达宣布与 Groq 的复杂交易——他的判断被行业霸主天价盖章确认。又过了四个月,他们也获得了文章开头那轮数亿元融资。
GPU 做推理,到底慢在哪?
杨滨和元川微押注“ LPU 是推理的正确答案”,在 2026 年春天,这个判断已经拿到了全球头部资本和英伟达的双重背书。那么,LPU 究竟凭什么比 GPU 快?
首先,GPU 的设计理念是吞吐量优先,擅长把一大块数据切成几千份同时计算。但大模型推理是逐 Token 自回归生成——模型要逐层计算每一个 Token ,每层都要完成注意力机制( Attention )和前馈神经网络( FFN )两步运算,其中注意力机制在寻找词的上下文联系,而 FFN 则是模型的“知识库”,记录着大模型里的参数权重,每一个 token 生成都要经过大模型的参数矩阵的运算。这个过程天然是串行的, GPU 的并行优势在这里发挥不出来。
这就导致内存带宽成了新瓶颈。推理需要频繁从外部 HBM 读取模型参数。每次读取都有不确定的延迟,且 HBM 带宽有限——即使相比传统 GPU 显存,HBM 已经有了数倍乃至数十倍的容量和速度,但仍然不够快。当模型有几百亿参数,每个 Token 都要反复读取时,等待时间远超计算时间。
更关键的是,Attention 和 FFN 对内存的需求完全不同。Attention 需要反复读取 KV 缓存,GPU 的大容量 HBM 可以派上用场。但 FFN 需要逐层高速翻阅权重矩阵—— HBM 的带宽成了瓶颈。这不是英伟达的工程能力问题,而是物理极限:HBM 可以做到 288GB ,但带宽只能到 22TB/s 。
在人类探索计算机架构的历史长河里,其实已经早已有了另一种更快速的存储器,在等待着被选中去挑战大模型的推理,这就是被称作“ SRAM (静态随机存取存储器)”的一类小容量、超高速存储器,它的典型容量虽然只有几十 KB 到几百 MB ,但可以做到上百 TB/s 带宽,被大量集成在各类处理器芯片中,作为距离计算核心最近的缓存,提高计算速度。
所以英伟达做了一个聪明的选择:不跟物理定律较劲,进行分工。
它把 FFN 计算交给 Groq LPU ——一种全 SRAM 架构的芯片,用 150TB/s的极致带宽进行处理;GPU 则专注做 Attention ,发挥 HBM 的大容量优势。两颗芯片在解码时交替配合,每层传递少量中间激活值,跑完所有层生成一个 Token 。这种架构叫 AFD(Attention-FFN Decoupling),是英伟达基于系统效率和商业策略做出的路线选择。
需要强调的是,LPU 架构本身完全具备端到端推理能力,并非只能做协处理器。Groq LPU 在独立部署时已经证明了端到端推理的商业价值——从云订阅到算力中心,它跑的是完整的模型推理任务。这也进一步印证了推理解决方案的多样化趋势—— LPU 既可以与 GPU 协同作战,也可以独立部署,最终的衡量标准只有一个:在具体场景下,Token 的综合成本是否有优势。
![]()
![]()
![]()
https://claw-code.codes/
[2]The Trillion Dollar Race to Automate Our Entire Lives, the Wall Street Journal https://www.wsj.com/tech/ai/claude-code-cursor-codex-vibe-coding-
[3]Inside NVIDIA Groq 3 LPX: The Low-Latency Inference Accelerator for the NVIDIA Vera Rubin Platform https://developer.nvidia.com/blog/inside-nvidia-groq-3-lpx-the-low-latency-inference-accelerator-for-the-nvidia-vera-rubin-platform/
[4]Inference Speed Is the Key To Unleashing AI’s Potential, Groq https://cdn.sanity.io/files/chol0sk5/production/85f04a42fb0711b6009a024daefadd9a.pdf
[5]元川微完成数亿元天使轮系列融资,自研首个国产LPU架构,领航 AI 实时推理 https://mp.weixin..com/s/kuaAt8jrWsH52nWmalkcrA
作者:张慧娟
编辑:普通酱、姬十三
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/280200.html