泥地混战：不以绝对的理论优越性定胜负——论当前人工智能技术路线的选择

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

忘掉教科书上那些光鲜亮丽的叙事吧。

什么“深度学习的伟大进步”，什么“人工智能的理论突破”——全是胜利者书写的历史。

真实的故事远比这粗暴、血腥、也丑陋得多。

过去三十年的AI发展史，不是一场学术研讨会，而是一场泥坑里的群殴。十几个流派被同时扔进同一个角斗场，场边围满了看客——芯片厂商、云计算巨头、风险投资人、急等着发论文毕业的博士生。

这个角斗场有裁判吗？有的。但裁判手里的计分表上，根本没有“理论优雅性”这一栏。

不看谁的数学最漂亮，不看谁的假设最接近真理，不看谁的框架最具哲学深度。

裁判只看一件事：谁能在现有的、破烂的、充满历史妥协的硅基工业体系上跑起来、扩上去、在合理的时间和成本内产出可度量的结果。

这意味着——

你的理论再完美，跑不动就是零分。
你的模型再优雅，扩不上去就是淘汰。
你的数学推导无懈可击，但训练一次要六个月、烧掉一栋楼的电费？出局。

这不是一场以理论高度定胜负的比赛。这是一场以工程生存能力定生死的丛林法则。

Transformer赢了。

不是因为它最聪明。不是因为它在理论上碾压了所有对手。

而是因为在这个特定的角斗场上、这套特定的计分规则下、这片特定的硬件地形中——它最能打。

而到了2026年4月，这个结论依然成立——全球每一家主流AI公司的主力大模型，核心架构栏里清一色写着“Transformer解码器”，无一例外。但战场的地貌正在发生微妙而深刻的变化：那些曾经被宣告死亡的流派，正在以出人意料的方式重新爬回赛场——不是在主战场上正面推翻Transformer，而是在新的工程条件下找到了属于自己的生存空间。

工程生存法则没有变。变的是“工程环境”本身。

在Transformer踩着尸体登上王座之前，让我们先看看那些倒下去的对手。

它们每一个，在理论的维度上，都比Transformer更接近“真正的智能”。

① 脉冲神经网络（Spiking Neural Networks）

如果这场战争有公平可言，SNN早就该是冠军。

它是所有AI架构中唯一一个在信息编码层面忠实于生物神经元的。人的大脑不做浮点矩阵乘法。人的神经元是“事件驱动”的——静息状态下几乎不耗能，只有当膜电位累积超过阈值时，才发射一个全或无的电脉冲（spike）。这种编码方式天然稀疏：在任意时刻，大脑中只有约1%–5%的神经元处于放电状态。一个人类大脑以大约20瓦的功率，完成当今最强大模型烧掉数兆瓦电力才能勉强逼近的认知任务。

SNN就是这条路线的计算化身。它用脉冲时序（spike timing）编码信息，用膜电位动力学代替简单的激活函数，理论上可以利用时间维度进行更丰富的信息表示——这被称为时间编码（temporal coding），相比传统神经网络的频率编码，信息密度更高。

但在AI主战场的第一轮淘汰赛中，它就出局了。

原因：它上不了擂台。

当代GPU的核心设计哲学叫SIMT（单指令多线程）——成千上万个计算线程排好队，同时执行同一条指令，处理不同的数据。整齐划一，暴力并行。GPU的峰值吞吐量建立在一个前提上：所有线程在同一时刻做一样的事。

而SNN是什么？它是异步的、稀疏的、事件驱动的。每个神经元有自己的膜电位动态，各自在不同时刻发射脉冲。在GPU的执行模型里，这意味着严重的线程分化（thread divergence）——同一个warp里的32个线程，有的在发射脉冲需要计算突触后电位，有的在静息什么都不干。GPU的流水线在这种情况下效率塌方。

让GPU跑SNN，就像让一支阅兵方阵去打巷战。 方阵的纪律性是它的力量之源，但面对不规则战场，这种纪律变成了枷锁。

很长一段时间里，SNN被锁在一个鸡生蛋的死循环里：没有工业级芯片产线，就没有工程生态；没有工程生态，就没有开发者；没有开发者，就没有应用；没有应用，就没有钱——没有钱，就没有下一代芯片。

但到2026年，这个死循环正在被撬开第一道裂缝。

Intel的Loihi 3已于2026年1月正式从研究原型转向商业硅片，采用18A工艺，单芯片集成100万神经元和1.28亿突触，支持最多1024芯片集群。围绕它的开源生态Lava已经成熟，提供时序处理、异常检测、连续学习等工业级算法库。在边缘设备连续学习任务中，Loihi 3的能效比相比H100高出三个数量级。更重要的信号是：AWS已宣布将于2026年下半年推出基于Loihi 3的神经形态计算云实例——这是SNN第一次有机会进入云厂商的产品目录。

与此同时，北京大学和广东省智能科学与技术研究院在忆阻器硬件上的突破，使得脉冲计算在工业物联网、机器人控制等场景中开始实现小规模商用。端侧AI的爆发（2026年，手机和物联网设备已能流畅运行7B-13B参数的模型）为SNN打开了一个全新的生态位——在功耗和延迟极度敏感的边缘场景中，SNN的事件驱动特性从“工程缺陷”变成了“天然优势”。

SNN没有翻盘。在通用大模型的主战场上，它仍然不具备竞争力。 但它证明了一件关键的事：工程生存法则不只有一个擂台。当工程环境从“云端GPU集群”变成“边缘低功耗设备”时，生存能力的定义本身就改变了。被主战场淘汰，不等于被所有战场淘汰。

② 玻尔兹曼机与能量模型（Boltzmann Machines & Energy-Based Models）

这一条尤其讽刺，因为深度学习复兴的第一声信号弹，正是由玻尔兹曼机发出的。

2006年，Geoffrey Hinton发表了那篇改变AI历史进程的论文，展示了如何用受限玻尔兹曼机（RBM） 逐层预训练来初始化深度网络，从而解决了多层神经网络长期无法训练的难题。同期的其他因素——GPU计算能力提升、大规模数据集出现、Bengio和LeCun的持续研究——共同促成了深度学习复兴，但RBM预训练那篇论文无疑是最具标志性的节点。

玻尔兹曼机的理论根基扎在统计物理学里。整个网络被定义为一个能量函数，学习的过程就是调整参数使数据分布对应的能量最低。这套框架拥有严格的概率解释——网络的每个状态都有明确的概率含义，联合分布、条件分布、边缘分布，全部可以在统一的数学框架下严谨推导。

更广义的能量模型（EBM） 家族延续了这个思想：不直接预测输出，而是学习一个能量地形（energy landscape），输入-输出的**配对对应能量最低的山谷。Yann LeCun多年来一直是这条路线最执着的推动者，他认为这是通往世界模型（world model）的正确方向。

但玻尔兹曼机被它自己的训练过程拖入了深渊。

训练RBM需要估算一个叫“配分函数”的归一化常数的梯度。精确计算在超过几十个节点时就已经是NP难的。实践中必须使用吉布斯采样（Gibbs sampling） 等马尔可夫链蒙特卡罗（MCMC）方法来近似——一步一步地随机翻转节点状态，等待马尔可夫链收敛。

问题来了：MCMC本质上是串行的、有时间依赖的随机过程。 当前状态依赖于上一步的采样结果，你不能跳过中间步骤并行采样。GPU可以在batch维度上并行跑多条链，但每条链自身的迭代是串行的，而且收敛所需的步数难以预测。

Hinton提出的对比散度（Contrastive Divergence, CD-k） 算法将采样步数砍到k步（通常k=1），极大加速了训练。但这是一个有偏近似——理论上你牺牲了梯度估计的无偏性来换取速度，而且在深层网络中CD的估计偏差会累积放大。

后来发生了什么？2012年前后，人们发现ReLU激活函数 + Dropout正则化 + 大规模标注数据的组合，可以直接端到端训练深度网络，根本不需要RBM预训练这个步骤。一夜之间，曾经被视为“深度学习入口”的玻尔兹曼机，变成了一个被绕过的中间站。

点燃革命的信号弹，被革命自身的烈焰吞没了。

但能量模型的思想，远比玻尔兹曼机这个具体载体更加顽强。

事实上，席卷生成式AI的扩散模型（Stable Diffusion、DALL-E、Sora等的核心技术）从数学本质上就是能量模型的现代变体——它通过学习一个去噪过程来隐式定义数据分布的能量地形。扩散模型在图像和视频生成领域的统治地位，本身就证明了能量函数框架的生命力。

更具标志性的事件发生在2026年：图灵奖得主Yann LeCun离开Meta后创立了Logical Intelligence公司，并于2026年1月发布了全球首款商业化能量推理模型Kona 1.0。Kona 1.0在逻辑推理、因果关系建模、物理世界理解等核心场景上，性能超越了同规模Transformer大模型，并已获得超过10亿美元的商业订单。

Kona 1.0之所以能够突破玻尔兹曼机当年的工程困境，关键在于它绕过了MCMC采样的瓶颈。 它借鉴了扩散模型和对比学习的训练范式，用可以在GPU上高效并行的梯度下降来替代串行的吉布斯采样。换句话说——能量模型的理论没有变，但它的工程实现方式被彻底重构了，使其能够适配现有的GPU计算范式。

这恰恰印证了本文的核心论点：决定一个AI路线命运的，不是它的理论内核，而是它的工程实现能否适配当前的硬件生态。 玻尔兹曼机的能量思想本身没有错——错的是它最初的工程实现（MCMC采样）无法在GPU上高效运行。当有人找到了一种GPU友好的方式来实现同一个理论框架时，能量模型就从“历史概念”转变为了“主流竞争者”。

③ 概率图模型（Probabilistic Graphical Models）

如果说玻尔兹曼机是在深度学习革命中被“队友”淘汰的，那么概率图模型则是一整个曾经在AI学术界占据核心地位长达十年的范式的覆灭。

在深度学习崛起之前的2000年代，贝叶斯网络和马尔可夫随机场是机器学习的主流范式之一（同期的核方法、集成学习也占据重要地位，但概率图模型在理论深度上独树一帜）。这套框架的理论奠基人Judea Pearl在2011年获得图灵奖——不是因为他发明了一个好用的工具，而是因为他建立了因果推理的数学基础。

概率图模型的理论优势是碾压性的：

不确定性的严格量化：每一个预测都附带置信度，不是“我觉得这是猫”，而是“这是猫的概率为0.87，是狗的概率为0.12”，并且这个概率有严格的贝叶斯解释。
因果推断：不仅能做关联（“A和B常一起出现”），还能做干预推理（“如果我改变A，B会怎样？”）和反事实推理（“如果当时A没发生，B还会发生吗？”）。
可解释性：图结构本身就是模型的解释——每个节点是什么变量，边代表什么依赖关系，一目了然。

但它被自己的推理复杂度杀死了。

在一般的贝叶斯网络上做精确推理（计算后验概率）是NP难的。实用的近似推理方法，如信念传播（Belief Propagation） 或变分推理（Variational Inference），涉及在图结构上反复传递消息、迭代收敛。

这种计算模式对GPU而言是灾难性的：

图结构是不规则的——不同节点的邻居数量不同，消息传递的路径不同
计算是数据依赖的——下一步往哪里传消息、传什么，取决于上一步的结果
迭代次数是不可预测的——有些图几步就收敛，有些震荡不止

GPU需要的是什么？规则的、可预测的、大块大块的齐整矩阵运算。 概率图模型给它的却是一张纠缠的蛛网，每条丝上的计算都不一样。

到了2012年，AlexNet在ImageNet上以碾压之势夺冠。人们发现，与其痛苦地在贝叶斯框架下推导一个可解释但慢得令人发指的模型，不如扔一个深度卷积网络进去，喂它一千万张图，让它自己去学。

理论优雅让位给了工程暴力。一个有着图灵奖背书的数学框架，被一个没有任何概率解释、没有因果能力、黑箱到底的卷积网络，在ImageNet的擂台上一拳打倒。

擂台上不看学位证书，只看分数。

但概率图模型的核心遗产——因果推理——在2026年迎来了一次命运的反转。

曾经，大模型在因果推理上的表现确实令人沮丧。但到2026年，情况发生了显著变化。2026年2月的一项系统性研究表明，前沿大模型在规范化因果推理任务上（如collider图判断），表现已经超过人类平均水平，且更少出现认知偏差。NVIDIA在2026年CES上发布的Alpamayo-R1自动驾驶模型，将因果推理作为核心组件，能够在长尾场景中进行“因为Z所以要做Y”的决策。OpenAI、Google DeepMind等机构已在预训练阶段嵌入因果图结构，实现了可控生成和反事实推理。

这意味着什么？大模型没有抛弃因果推理——它把因果推理吞噬了。 Pearl的因果推断框架不再是一个独立的竞争架构，而是被整合为大模型推理链路的理论约束层。杀死概率图模型的是工程效率，但它留下的理论遗产，正在被杀死它的那些模型所吸收。

这是一种比“复活”更深刻的胜利——思想比载体活得更久。

④ 贝叶斯神经网络（Bayesian Neural Networks）

有人试图调和这两个世界——既要深度学习的暴力拟合能力，又要贝叶斯的不确定性量化。

贝叶斯神经网络（BNN）就是这个调和方案。它的核心思想简洁而有力：不要让网络的每个权重只是一个固定数字，让它变成一个概率分布。

这一个小改动，理论上解决了深度学习最被人诟病的几个根本缺陷：

校准的不确定性：网络可以数学上严格地说“我不确定”，而不是像现在的大模型一样，胡说八道的时候也一脸自信
数据效率：贝叶斯先验可以编码领域知识，在小样本场景下仍能稳健学习
抗过拟合：权重的后验分布天然实现了贝叶斯奥卡姆剃刀效应

在医疗诊断、自动驾驶、金融风控等出错代价极高的领域，“知道自己不知道什么”比“给出一个可能是错的答案”重要得多。BNN在理论上完美契合这些需求。

但在很长一段时间里，它的计算成本是毁灭性的。

一个普通神经网络有N个权重参数。一个BNN对每个权重维护一个分布，最简情况下（均值场近似）至少需要2N个参数（均值和方差）。但这只是存储上的翻倍，真正的杀手在推理阶段——

每次做预测时，你不能只跑一次前向传播。你必须从权重分布中采样多次（通常几十到几百次），对每次采样得到的预测结果取平均和方差。一次预测变成了几十次预测。

训练阶段更惨。精确的贝叶斯后验推断是不可解的（intractable），必须用变分推理（引入额外的优化目标和近似分布）或MCMC采样（前面讲过的串行噩梦）。变分推理的近似质量高度依赖于变分族的选择，而MCMC在高维参数空间（现代网络动辄上亿参数）中的混合速度慢得惊人。

BNN在小网络、小数据集上优美得无可挑剔；一旦规模扩大到工业级，计算开销就膨胀到令人窒息。

2015年，Yarin Gal提出了MC Dropout——一个讨巧的近似方案：训练时用Dropout，推理时也保持Dropout开启，跑多次取方差，近似贝叶斯不确定性。这个方法几乎不增加计算成本，在工业界得到了一定采用。但MC Dropout本质上是一种非常粗糙的近似，和真正的贝叶斯后验之间的差距，就像用一个纸板箱近似一辆真正的汽车。

但到了2025–2026年，BNN的计算监狱的墙壁出现了第一批裂缝。

变分推断技术取得了突破性进展。北大彭一杰团队在2025年ICLR发表的FLOPS算法，将贝叶斯梯度估计效率提升了近一倍，使得BNN首次具备了扩展到十亿级参数的工业应用潜力。这不再是实验室玩具——在机械故障诊断、药物发现、金融风控等高风险领域，完整BNN已经实现了生产级部署。

BNN依然没有进入通用大模型的主战场。 在GPT级别的万亿参数规模上，它的计算开销仍然不可承受。但在“出错代价极高”的垂直领域——恰恰是BNN理论优势最突出的地方——它终于获得了与自身理论价值相匹配的工程可行性。

这再次印证了核心法则：不是理论变了，是工程条件变了。 当变分推断的效率突破了某个临界点，BNN就从“理论正确但工程不可行”跨越到了“在特定条件下工程可行”。决定这个跨越的不是数学推导的完善，而是算法工程的进步。

⑤ 胶囊网络（Capsule Networks）

这个故事更讽刺。

胶囊网络的提出者是Geoffrey Hinton——对，又是他。深度学习的教父，图灵奖得主，反向传播算法的关键推动者之一。整个深度学习革命，追根溯源，他是最重要的奠基人之一。

但Hinton自己一直对他亲手推动的深度学习主流方向心存不满。

他尤其反对卷积神经网络（CNN）中的池化（Pooling） 操作。池化通过下采样来缩小特征图，只保留局部区域内的最大值或均值，空间位置信息在这个过程中被系统性地丢弃。Hinton在多次公开演讲中强调，这导致CNN对空间几何关系的感知是脆弱的——如果把人脸的五官打散重组，CNN可能仍然给出“人脸”的高置信度判断（这一点在后来的对抗样本研究中得到了部分验证，尽管现代深层CNN通过大量数据训练可以学到一定程度的空间约束）。

胶囊网络的解决方案是用向量（或矩阵）而非标量来表示特征。每个“胶囊”输出一个向量，其模长表示特征存在的概率，方向编码该特征的姿态参数（位置、角度、比例等几何信息）。低层胶囊通过动态路由（dynamic routing） 算法与高层胶囊协商：每个低层胶囊根据“我应该把信息发给哪个高层胶囊”的一致性判断，迭代调整路由权重。

理论上，这是一种比池化更忠实于视觉系统层级组装逻辑的方案。

但在工程上，它是一场灾难。

动态路由需要在层间进行多次迭代（原始论文中通常迭代3次），每次迭代包含softmax归一化、加权求和、squashing非线性等操作，且路由系数是动态计算的而非可预训练的。这意味着：

控制流复杂：不同胶囊对之间的路由权重在迭代过程中动态变化，需要条件判断和循环控制
张量形状不规则：胶囊的向量/矩阵维度为结构引入了额外的轴，使得标准的batched矩阵乘法库难以高效适配
内存访问不连续：路由过程中的数据依赖模式导致大量随机内存访问，缓存命中率很低

现代GPU的流水线是为确定性的、无分支的、单向的计算图优化的。大块的矩阵乘法走的是精心调度的共享内存tile加载路径，流水线满载运行。你往里面塞一个“迭代3次、每次根据上一次的结果动态调整系数”的循环，流水线的调度直接抓瞎。

结果：胶囊网络在MNIST（28×28灰度图，10类）上表现尚可，在smallNORB上展现了对视角变化的良好泛化性。但当研究者们尝试将其扩展到CIFAR-10（32×32彩色图，10类）时，训练开销已经急剧膨胀；到ImageNet规模（224×224，1000类），它在当时的硬件条件下基本不可行。

Hinton后续提出了用EM算法替代动态路由（Matrix Capsules with EM Routing, 2018），试图改善可扩展性，但核心的迭代推理瓶颈没有被根本解决。

图灵奖得主亲手设计的架构，被显卡的硬件调度逻辑判了死刑。

擂台上不看荣誉勋章，只看你跑得动跑不动。

2025–2026年间，胶囊网络的思想以一种出人意料的方式获得了部分复活：若干研究团队将胶囊的姿态编码机制与Transformer的注意力机制结合，在3D点云理解和医学影像的空间关系建模上取得了论文级的突破。它不再是一个独立的架构，而是变成了Transformer的一个可插拔组件——以寄生的方式存活下来。Hinton大概不会对这个结局完全满意，但至少它没有彻底消失。

⑥ 神经图灵机与可微分神经计算机（Neural Turing Machines / Differentiable Neural Computers）

如果AI的终极目标是“通用智能”——不只是识别猫狗、翻译语言，而是能学会任何算法——那么2014年DeepMind提出的神经图灵机（NTM），在概念上走得比任何人都远。

核心思想极其大胆：给神经网络配一块外部可读写的存储器，就像图灵机有无限长的纸带一样。网络通过注意力机制学习何时读、从哪里读、写什么、写到哪里。

这意味着：网络不再只是一个输入-输出的映射函数，它变成了一个可编程的计算装置。

在实验中，NTM展现了令人惊叹的能力：它可以学会复制序列、排序、访问关联性内存——这些是传统神经网络根本做不到的结构化操作。2016年的升级版——可微分神经计算机（DNC）——进一步增加了动态内存分配和时序链接等机制，在图遍历和关系推理任务上展现了强大的泛化能力。

但NTM/DNC从未走出小规模实验的温室。

问题出在它的内存访问模式上。为了让整个系统可微分（从而可以用反向传播训练），NTM使用软注意力访问内存——不是精确地读写某个地址，而是对所有内存位置计算一个注意力分布，然后加权求和。

这意味着：每一次读或写操作，都需要遍历整个内存。 内存有M个位置，每次读操作的复杂度就是O(M)。如果每个时间步都要读和写，T个时间步下来就是O(T × M)。当你想把内存规模从128扩大到百万级别时——

计算量爆炸。而且这个爆炸不是GPU擅长的那种“大矩阵乘法”式的规整爆炸，而是一个时间步一个时间步依次展开的串行爆炸，因为每一步的读写内容取决于上一步的网络状态。

外部内存访问的不规则模式，加上时间步之间的串行依赖，使得NTM在GPU上的利用率极其低下。

更致命的是训练稳定性问题。软注意力的梯度信号需要穿过注意力分布的softmax函数，在长序列上极易出现梯度弥散或锐化为near-one-hot导致的梯度爆炸。实际训练中，NTM的超参数极其敏感，稍有不慎就不收敛。

到了2017年Transformer出现后，人们发现：不需要外部内存，只靠自注意力机制在序列内部做全对全的信息交换，就已经能在大多数NLP任务上取得远超NTM的成绩。 而且Transformer的自注意力是一次性并行计算的矩阵乘法，不需要时间步展开，GPU利用率碾压NTM。

一个理论上更弱、但工程上更高效的方案，把理论上更强、但工程上不可扩展的方案，直接从擂台上推了下去。

到2026年，NTM作为独立架构已经几乎无人提及。但它的核心概念——外部可微分记忆——被Transformer的各种长上下文扩展方案（如检索增强生成RAG、KV-cache压缩与外挂存储、以及记忆增强架构）所吸收。可以说NTM没有死，它融化了——它的思想变成了Transformer体内的一个器官。

⑦ 连续时间神经网络（Neural ODEs）

2018年NeurIPS**论文。

这篇论文的核心观点极其锐利：传统神经网络是一层一层叠上去的离散结构，但现实世界是连续的。 流体力学是连续的，天体轨道是连续的，药物在体内的代谢动力学也是连续的。用一个离散的、一块砖一块砖堆起来的网络去逼近一个连续的动力系统，从数学上就是一种粗糙的近似。

Neural ODE的提案是：把残差网络（ResNet）中“上一层加上一个增量变成下一层”的离散递推，取极限变成一个常微分方程的初值问题。输入是初始条件y(0)，输出是方程在时刻T的解y(T)。网络的“深度”不再是一个离散的整数（12层、48层、96层），而是一个连续变量——理论上可以在任意精度下逼近任意深度。

这个框架带来了几个极其诱人的理论性质：

常数级内存：反向传播不需要存储中间层的激活值（因为没有“层”的概念），而是通过伴随方法（adjoint method）逆向求解一个新的ODE，内存消耗与“深度”无关
自适应计算量：可以使用自适应步长ODE求解器（如Dormand-Prince方法），简单输入少算几步，复杂输入多算几步，自动分配计算资源
连续归一化流：在生成模型领域，Neural ODE构造的连续变换可以精确计算雅可比行列式的迹，使得密度估计在理论上更优雅

但我们的计算机，从冯·诺依曼在1945年写下EDVAC报告的那一刻起，就是一台离散的时钟驱动机器。

CPU靠时钟节拍运行。滴答、滴答、滴答。每一个滴答之间，物理世界在向前流淌，但计算机是凝固的。GPU也一样——本质上是几千组计算单元在同一个时钟信号下同步运作。

在这样的离散硬件上求解连续的微分方程，必须使用数值积分方法——Euler、Runge-Kutta、Dormand-Prince等。每往前推进一个时间步长，求解器需要对神经网络做一次或多次前向评估（四阶Runge-Kutta每步需要四次网络评估）。而自适应步长意味着步数是不可预测的——不同样本的求解路径长短不一，在一个batch内造成严重的负载不均衡。

更要命的是反向传播。伴随方法虽然理论上省内存，但它需要逆向求解一个ODE，而这个逆向求解过程中需要访问前向轨迹上的中间状态。由于数值积分的截断误差，逆向求解的轨迹和前向轨迹会发生偏移，导致梯度估计不稳定。实践中，人们不得不用检查点（checkpointing）或插值来缓解这个问题，进一步增加了计算和实现的复杂度。

在传统云端GPU集群的条件下，Neural ODE的单步训练速度通常比同等规模的离散ResNet慢5到10倍甚至更多。

它最终缩进了科学计算的小角落——建模小规模物理系统、药物动力学、连续归一化流等——在这些领域，它的连续性优势确实不可替代。但在大规模视觉、语言、多模态的主战场上，它再也没有回来过。

不过，2026年端侧AI的爆发为Neural ODE打开了一个意想不到的侧门。 在端侧物理仿真、连续时间信号处理（如可穿戴设备的生理信号建模）等场景中，Neural ODE的自适应计算量特性——简单输入少算、复杂输入多算——恰好匹配了边缘设备有限且波动的算力预算。在这些利基场景中，它的能效比已经展现出优于等规模Transformer的表现。

一个NeurIPS**论文的璀璨光环，在云端GPU集群里换不来一张入场券——但在边缘设备的新战场上，终于找到了一片配得上它理论优雅性的工程土壤。

⑧ 储备池计算（Reservoir Computing）

最后提一个安静的失败者——它可能是所有流派中，故事最意想不到的。

储备池计算（包括回声状态网络 Echo State Networks 和液态状态机 Liquid State Machines）的核心思想简单到令人窒息：

不训练整个网络。只训练最后一层。

构建一个大规模随机连接的循环网络（“储备池”），将其权重固定不变。输入信号注入储备池后，在其复杂的非线性动力学中被“搅拌”和“投射”到一个高维状态空间。然后，只训练一个简单的线性读出层（通常就是一个岭回归或线性回归），将储备池的状态映射到目标输出。

理论上，这套方案有极强的数学支撑。Jaeger和Maass分别从不同角度证明了储备池在满足“回声状态属性”（echo state property）或“分离属性”（separation property）时，具备对时间序列的通用近似能力。

它的优势几乎是超现实的：

训练极快：只需解一个线性方程组，秒级完成
参数极少：只有读出层有可学习参数
时序处理能力强：循环动力学天然捕捉时间依赖

但储备池网络的随机稀疏连接结构，曾经对GPU而言是一场噩梦。

储备池的连接矩阵通常非常稀疏（稀疏度90%以上），且连接模式是随机的、不规则的。GPU的矩阵乘法引擎为稠密矩阵优化。稀疏矩阵乘法在GPU上的实际吞吐量通常只有稠密运算的一小部分——因为稀疏访存模式导致缓存命中率低下、内存带宽浪费严重。而且储备池是循环网络，天然存在时间步之间的串行依赖——和RNN相同的工程致命伤。

但这个“噩梦”在2026年被部分化解了。

2026年3月，OpenReservoirComputing项目发布了基于JAX的GPU加速储备池计算库。核心技巧是稠密化和算子融合：将稀疏储备池矩阵以结构化方式重排为可被GPU高效处理的分块稠密形式，并将多步循环迭代融合为少数几个大型并行算子。这一优化将GPU上的储备池吞吐量提升了一个数量级。

在时间序列预测和边缘信号处理领域，优化后的储备池模型能效比同规模Transformer高出3–5倍，已被多家工业物联网公司采用。

储备池计算的工程瓶颈没有被“理论突破”解决，而是被“工程适配”解决。 稀疏不行？那就用巧妙的方式把它变成稠密。循环串行不行？那就用算子融合把多步压成一步。——它的理论一个字都没改，改的是它适配GPU的方式。

这几乎是本文核心论点最精练的注脚：决定命运的不是理论本身，而是理论被包装成什么样的工程形态。

现在，让我们把聚光灯打回到那个浑身是泥、满脸是血、但依然站着的赢家身上。

Transformer。

2017年，Google的一个团队发表了一篇论文，标题写着——“Attention Is All You Need”。

它做了什么？

它做了一件在认知科学角度几乎可以被称为“偷懒”的事。

在Transformer之前，处理序列数据（如自然语言）的主流架构是RNN及其变体（LSTM、GRU）。RNN的工作方式符合直觉：一个词一个词地处理，将上一个时间步的隐状态传递给下一个时间步，形成一条信息流动的时间链。它有“记忆”，有“时间感”，有因果方向性。

但RNN有一个在工程上致命的结构性缺陷：时间步之间的串行依赖。

处理第t个词的隐状态h(t)依赖于h(t-1)，而h(t-1)依赖于h(t-2)……一个长度为L的序列，就是L步不可并行的串行计算。GPU上成千上万个计算核心，绝大多数在等待。

LSTM试图通过门控机制改善长距离记忆，GRU简化了门控结构，但它们都没有触及这个根本问题——串行依赖无法被门控机制消除，因为它是循环结构本身的数学性质。

Transformer对此的解决方案堪称粗暴：

取消循环。取消时间步。把整个序列一次性并行处理。

具体做法是自注意力机制（self-attention）：对序列中的每一个位置，计算它与所有其他位置之间的相关性得分（注意力权重），然后用这些权重对所有位置的表示做加权求和。

由于Transformer没有循环结构，它对序列中词的先后顺序天然无知。解决方案是给每个位置加一个位置编码（positional encoding）——在原始论文中是固定的正弦/余弦函数，后来演进为旋转位置编码（RoPE）、动态NTK-aware RoPE等更精巧的方案。这是一个工程补丁，让模型“意识到”词的位置，但它和RNN那种从结构上内嵌的时序归纳偏置是完全不同的东西。

从语言学和认知科学的角度看，这个设计有明显的生物不合理性。人类阅读虽然不是严格逐词线性的（眼动研究表明存在跳视和回视），但阅读过程毫无疑问是有方向性和时序性的，理解是渐进式构建的。Transformer将所有位置同时暴露给彼此的全对全注意力，在认知层面缺乏对应物。

但从GPU工程的角度看——

这简直是天作之合。

“序列中每个位置对所有位置计算注意力”，用线性代数的语言表达就是：

三个投影矩阵将输入映射为Q（查询）、K（键）、V（值）—— 矩阵乘法
Q和K的转置相乘得到注意力得分 —— 矩阵乘法
注意力权重经softmax归一化后与V相乘得到输出 —— 矩阵乘法

整个前向传播的计算核心，几乎全部可以分解为大规模稠密矩阵乘法。

而大规模稠密矩阵乘法，恰恰是NVIDIA GPU上的Tensor Core被设计出来执行的终极使命。从V100开始，Tensor Core专门为混合精度矩阵乘累加运算（matrix multiply-accumulate）做了硬件加速。一块H100 SXM的Tensor Core在BF16稠密运算下峰值算力约为500 TFLOPS，启用结构化稀疏后可逼近一千TFLOPS。

Transformer把自然语言处理问题，翻译成了GPU硬件最擅长说的语言——大矩阵乘法。

没有循环依赖，没有复杂控制流，没有动态路由，没有MCMC采样，没有ODE求解，没有稀疏脉冲——只有整齐划一的、可预测的、可高度并行的矩阵运算。

这不是智力上的胜利。这是适配上的胜利。

常被归于达尔文（实为后人转述）的那句话说得没错——活下来的不是最强壮的，也不是最聪明的，而是最适应环境的。

Transformer最适应的“环境”，就是GPU计算生态。

但它正在变形

必须立刻指出一个关键事实：2026年的Transformer，已经不再是2017年那篇论文里的Transformer。

它正在经历深刻的架构革新。2026年3月，Kimi团队发布的Attention Residuals架构重构了Transformer的残差连接方式，将训练效率提升40%，推理延迟降低30%。DeepSeek的mHC架构解决了超大规模模型训练中的通信拥堵问题，将千亿参数模型的训练成本降低了一半。

Transformer的核心——自注意力——也在变异：

稀疏注意力成为标配——不再让每个token与所有其他token交互。Gemini采用局部+全局混合注意力（5:1交替），字节跳动的豆包使用动态稀疏注意力
混合专家模型（MoE） 大规模应用——GPT-4/5、Gemini、豆包、讯飞星火全部采用MoE，动态路由到少数几个“专家”子网络，实际计算量远低于名义参数量
SSM融合——通义千问Qwen3-Next将SSM线性注意力与标准注意力混合，腾讯元宝直接构建Hybrid-Transformer-Mamba-MoE三位一体的混合架构

更关键的是一个新的挑战者。

2023年底，Albert Gu和Tri Dao提出了Mamba——基于选择性状态空间模型（Selective SSM）的架构。它瞄准Transformer的最大工程软肋：自注意力的二次复杂度。

Transformer的注意力计算量与序列长度的平方成正比。处理4096个token，注意力矩阵约1700万个元素；扩展到100万token，膨胀到万亿级别。FlashAttention等工程优化改善了常数项，但无法改变二次方的数学本质。

Mamba用可学习的状态递推来压缩历史信息，计算复杂度与序列长度线性相关。在长序列任务上，Mamba-2的速度和显存优势可达同规模Transformer的2倍以上。2026年3月发布的Mamba-Next混合架构采用“底层SSM+上层局部注意力”设计，同时兼顾长序列效率和短程推理精度。

最关键的一点——Mamba与前面那些“理论优美但GPU上跑不动”的失败者有本质不同。 它从设计之初就考虑了GPU的硬件特性。核心算子是为CUDA优化的选择性扫描（selective scan），利用GPU的共享内存层级和寄存器文件进行高效的并行前缀和运算。它不是在对抗GPU，而是在用不同的方式喂饱GPU。

这正是为什么Mamba能活下来，而SNN、胶囊网络不能在同一个战场上活下来。 工程生存法则一视同仁——你可以挑战Transformer，但你必须在同一个硬件擂台上证明自己。Mamba做到了。

到2026年4月，Mamba已经不只是学术论文中的概念。腾讯元宝的Hybrid-Transformer-Mamba-MoE是已公开的首批超大规模融合架构之一。AI21的Jamba模型（Transformer+Mamba+MoE三合一）成为2026年上半年最受欢迎的开源大模型之一。

Transformer没有被推翻。但2026年的最强模型，已经不再是“纯血”的Transformer——而是“缝合怪”。

讲了这么多理论和历史，让我们看看2026年4月的真实战场上，各家到底交了什么答卷。

以下是截至本文写作时，全球主流大模型的核心架构选择：

模型所属公司核心架构关键创新 Gemini 谷歌DeepMind Transformer解码器全面转向稀疏MoE；原生多模态统一设计；局部+全局混合注意力（5:1交替）；100万+ tokens超长上下文 Claude Anthropic Transformer解码器坚持稠密Transformer（不采用大规模MoE）；20万tokens长上下文；改进型位置编码 ChatGPT OpenAI Transformer解码器 GPT-4/5引入混合专家MoE；原生多模态统一架构；动态MQA/GQA注意力切换 通义千问 阿里巴巴 Transformer解码器 Qwen3-Next引入SSM线性注意力与标准注意力的混合；动态NTK-aware RoPE；SwiGLU v2前馈网络豆包字节跳动 Transformer解码器自研BLM架构+动态稀疏注意力；基于MoE混合专家技术；万亿参数级分布式训练 腾讯元宝 腾讯 Transformer Hybrid-Transformer-Mamba-MoE混合架构；首批超大规模Mamba+Transformer融合MoE模型 讯飞星火 科大讯飞 Transformer解码器 293B参数MoE稀疏架构；Rotary Embedding位置编码；全国产算力适配（昇腾服务器）

这张表说明了什么？

第一：核心架构的统一选择——Transformer，没有例外。

七个国内外头部大模型，横跨中美两国、涵盖谷歌、OpenAI、Anthropic、阿里、字节、腾讯、科大讯飞——核心架构栏里清一色写着“Transformer解码器”。没有一家公司的主力模型基于SNN、胶囊网络、贝叶斯神经网络、Neural ODE或储备池计算。一个都没有。

这不是巧合，不是从众心理，也不是缺乏想象力。这是工程生存压力筛选后的收敛。当你需要在几万块GPU上稳定训练三个月、处理万亿token的数据、在商业时间表内交付产品时，你的架构选择空间被硬件物理和工程现实压缩到了一个极小的区域——而那个区域的中心，就是Transformer。

第二：所有“创新”都在Transformer框架内部进行。

浏览“关键创新”那一栏：MoE混合专家、稀疏注意力、Mamba融合、改进型位置编码、SwiGLU前馈网络……这些全是Transformer框架内部的优化和扩展。就像在一辆汽车上换更好的轮胎、改更高效的发动机、加更智能的变速箱——但底盘从来没换过。

即使是最大胆的腾讯元宝（Hybrid-Transformer-Mamba-MoE），其本质仍然是以Transformer为主体、Mamba为补充的混合架构，而非对Transformer的替代。

第三：Transformer正在吞噬曾经打败的对手的器官。

稀疏激活（SNN的核心特征）、动态路由到专家子网络（胶囊网络动态路由的表亲）、线性序列处理（状态空间模型的核心优势）——这些被擂台淘汰的思想，正以组件形式被整合进Transformer的身体里。

泥坑里的王没有被推翻。但它正在变形，而变形的方向，是长出那些被它踩在脚下的对手的器官。

一旦Transformer在工程上跑通了，一个正反馈闭环就启动了，而且这个闭环是自我加速的：

第一圈： Transformer在GPU上跑得好 → NVIDIA在下一代架构中专门为其优化（Tensor Core精度从FP16扩展到BF16、TF32、FP8；Hopper架构引入Transformer Engine；H100到Blackwell Ultra，每一代都沿着这条优化路线推进到新的极致）

第二圈： 下一代GPU更适合Transformer → Transformer可以做得更大、训练得更快 → 涌现出新的能力（in-context learning、chain-of-thought等）→ 更多的商业价值被证明

第三圈： 更多商业价值 → 更多资本涌入 → 更多的人才从其他研究方向被虹吸过来 → 其他路线的论文发不出、项目拿不到funding、学生找不到工作

第四圈： CUDA生态的护城河越筑越深 → PyTorch/JAX的算子库全部为Transformer类结构优化 → 你想跑一个非Transformer架构，没有现成的高性能kernel，没有成熟的分布式训练框架

这不是技术竞争。这是生态绞杀。

等你把替代方案的基础设施从零搭建完，Transformer那边已经又迭代了两代模型，又拿到了几十亿美元的新融资。

不是因为Transformer是最优解，所以所有人都选了它。而是因为所有人都选了它，它才变成了事实上的“最优解”。

路径依赖，锁定效应，赢家通吃。经济学比物理学更能解释当今AI的技术格局。

但到2026年4月，这个看似无懈可击的螺旋出现了几道裂缝。

裂缝一：预训练缩放定律撞墙。

长期以来，Transformer路线对资本最大的吸引力是其可预测的扩展规律（Scaling Laws）：砸更多的钱≈买更多的GPU≈训练更大的模型≈获得更好的性能。但到2025–2026年，这条曲线遇到了两堵墙——数据墙和架构墙。高质量人类文本数据预计将在2027年前后耗尽；更大的模型带来的边际收益开始递减。

行业的应对策略不是放弃Transformer，而是开辟新的扩展维度。OpenAI的o3系列、Claude Opus 4.6等模型证明了“推理侧缩放”（Test-Time Compute）的威力：不再只靠增大参数量来提升性能，而是增加推理时的思考步数——链式推理、搜索、自我验证——在不增加模型大小的情况下大幅提升复杂任务表现。

这意味着：AI的扩展范式正在从“砸钱堆GPU训练更大的模型”转向“让模型在推理时更聪明地思考”。 赢家通吃的螺旋没有断裂，但驱动它旋转的力量正在从预训练侧转向推理侧。

裂缝二：硬件格局的多元化。

NVIDIA仍然是AI硬件的绝对霸主，但已不再是唯一的选项。AMD MI300系列在AI训练市场的份额已从2024年的约5%提升至2026年的约18%，在科学计算和多模态训练领域表现突出。NVIDIA自己也在2026年3月发布的Vera Rubin平台中融合了不同于传统GPU的推理优化架构，单芯片推理能效比相比H100提升了一个数量级。国产算力芯片如昇腾910B、昆仑芯3代等已在国内云厂商中大规模部署，支撑了多个千亿参数大模型的训练——讯飞星火的全国产算力适配就是例证。

硬件“地形”不再是铁板一块。裂缝出现的地方，就是新物种可能生存的地方。

裂缝三：端侧AI的爆发。

2026年，端侧大模型已能在手机、汽车、物联网设备上流畅运行7B–13B参数的模型。端侧场景对低功耗、低延迟、小内存的刚性需求，构成了一个与云端GPU集群截然不同的工程环境。在这个环境里，SNN的事件驱动特性、Neural ODE的自适应计算量、储备池计算的极低训练开销，从“工程缺陷”变成了“生态位优势”。

工程生存法则没有变。但“生存环境”分化了——从单一的云端主战场，分化出了边缘、端侧、垂直行业等多个子战场，每个子战场的生存条件不同。

如果把Transformer的胜出简单归结为“NVIDIA绑架了AI”，那就把一个复杂的系统性现象矮化成了一个阴谋论。

现实比阴谋论无聊得多，也沉重得多。

没有任何一个人、一家公司、一个决策节点“选择”了今天的AI路线。 它是多股力量在几十年间各自运作、彼此纠缠、最终收敛到同一个方向的结果。每一股力量单独来看都是理性的，甚至是无奈的，但它们叠加在一起，构成了一条几乎不可能逃离的路径。

第一股力量：硬件的物理惯性。

冯·诺依曼架构在1945年被提出时，并不是因为它是最优的计算范式，而是因为它最容易用当时的电子元件造出来。计算和存储分离、指令顺序执行——这些设计选择是工程妥协的产物。但八十年下来，围绕这个架构堆积的制造工艺、设计工具链、操作系统、编译器、指令集、编程语言已经形成了一座巨大的冰山。你想换一个计算范式？你不是在换一块芯片，你是在试图融化整座冰山。

GPU也一样。NVIDIA最初做GPU是为了渲染3D图形——把三角形顶点投影到屏幕像素上。这个操作的数学本质恰好是矩阵变换。CUDA在2006年发布时的初衷是把这种矩阵计算能力开放给通用科学计算，机器学习只是后来搭上的便车。但一旦搭上了，GPU的稠密矩阵乘法特性就成了算法演化的地形——不是地形选择了河流的方向，但河流确实只能沿着地形流淌。

这不是NVIDIA的“阴谋”。黄仁勋在2006年推出CUDA的时候，深度学习还在AI寒冬的尾巴上瑟瑟发抖，他不可能预见到十年后Transformer会需要他的芯片。但硬件的物理特性一旦被确定，它就像引力场一样，无声地弯曲着所有经过它的算法轨迹。

到2026年，这个引力场开始出现微妙的变化。 忆阻器和光子互联技术在实验室阶段取得了重要突破——前者在特定的矩阵向量乘法任务上展现了比GPU高两个数量级的能效比，后者有望大幅降低芯片间数据搬运的能耗和延迟。存算一体芯片的原型已走出实验室，进入早期工程验证阶段。但“实验室突破”和“工业级部署”之间，横亘着通常需要5到10年才能跨越的鸿沟。

截至2026年4月，GPU仍然是AI工业的绝对基础设施。新硬件范式的曙光已经可见，但太阳还没有升起来。

第二股力量：软件生态的复利效应。

CUDA不仅仅是一套编程接口。围绕它生长出来的生态系统——cuBLAS、cuDNN、NCCL、TensorRT，以及建立在这一切之上的PyTorch和TensorFlow——每一层都是几千名工程师用几百万个工时堆出来的。

这些软件栈不是中性的基础设施。它们携带着深刻的结构性偏见。PyTorch的nn.MultiheadAttention底层调用的是为稠密运算优化过的CUDA kernel。你用它搭Transformer，一行代码就能跑。但如果你想实现SNN的膜电位动力学或Neural ODE的自适应步长求解器？——自己写kernel。

不是框架故意歧视你的算法。是框架的开发者也在追逐用户量，他们当然优先优化90%的用户正在使用的操作。

这是一个没有恶意的正反馈：用的人越多→优化越好→用的人更多。没有人在作恶，但少数派的生存空间被系统性地压缩了。

第三股力量：学术界的激励结构——正在缓慢松动。

一个博士生只有五年。如果你选择研究Transformer，成熟的代码库、预训练模型和标准化评测基准唾手可得。如果你选择研究SNN或胶囊网络？先花一年搭基础设施，然后模型跑得慢，实验周期长，论文投出去审稿人不熟悉这个领域，一句“scalability is a concern”就把你拒了。

长期以来，学术界的时间约束和评价体系系统性地惩罚了那些需要“先建基础设施再做研究”的方向。 人才不断流向Transformer周边的增量创新，根本性的替代范式越来越少有人敢碰。不是因为没人看到问题，而是看到问题的人也要吃饭。

但到2025–2026年，这个激励结构出现了松动的迹象。 NeurIPS、ICML、ACL等顶会均设立了专门的神经形态计算、贝叶斯方法、物理信息AI等专题。2026年ICLR接收的非Transformer架构论文占比已达到约35%。多个基金会和科技公司设立了专门的基础研究基金，支持替代AI范式的探索。

学术生态还远未达到对替代路线的公平对待，但至少，窒息式的压制正在减轻。

第四股力量：资本的短视理性——遇到了新的叙事。

风险投资的典型周期是七到十年。Transformer路线曾经拥有对资本最友好的特性：可预测的Scaling Laws——砸更多的钱≈买更多的GPU≈训练更大的模型≈获得更好的性能。这条冰冷、可靠、可以写进财务模型的直线，是过去几年AI投资狂潮的底层逻辑。

但当预训练Scaling Laws撞墙——数据瓶颈和边际收益递减开始显现——资本需要新的叙事。 “推理侧缩放”（Test-Time Compute）和“端侧AI”正在成为替代性的投资主题。而在端侧场景中，低功耗架构（SNN、储备池）和自适应计算架构（Neural ODE变体）的投资逻辑开始成立。

资本依然在赌谁现在就能跑。但“跑”的定义正在扩展——从“在GPU集群上训练最大的模型”扩展到“在边缘设备上以最低功耗运行最实用的模型”。

第五股力量：数据的偶然馈赠。

Transformer的崛起恰好赶上了一个历史性的巧合：互联网在过去二十年里积累了人类有史以来最大规模的文本和图像数据。 Transformer的自监督预训练范式——在大规模无标注文本上做下一个词预测——恰好完美利用了这个数据特征。不需要人工标注。互联网本身就是标注。

如果人类文明的主要数据形态不是文本和图像，而是连续的物理传感器信号（时间序列、力学场、化学浓度梯度），那么Neural ODE和SNN的优势领域就会变成数据最充裕的领域，整个竞争格局可能截然不同。

不是Transformer选择了数据，是数据的存在形态恰好有利于Transformer。

第六股力量：工程可调试性的筛选——门槛正在降低。

Transformer的计算图是静态的、确定性的。给定相同的输入和参数，它每次产生完全相同的输出。你可以在任意一层设置断点，检查激活值的分布，观察梯度的流动。整个模型是可检查的、可调试的。

而很多替代架构是动态的、随机的、甚至混沌的。NTM的内存访问模式随训练动态变化，BNN的每次前向传播因权重采样而不同，SNN的异步脉冲在时间上分布不均。在需要几百名工程师协同开发的工业系统中，可调试性是生死线。

长期以来，没有人因为“Transformer更容易debug”而选择了它——但无数人因为替代方案“太难debug”而放弃了它们。

不过到2026年，这个障碍正在被工具链的进步部分消解。 AI可解释性技术的发展使得动态、随机架构的调试工具开始成熟。纽约大学2026年3月发布的推理可视化技术，能够将AI的推理过程清晰透明地呈现出来，适用于包括BNN、SNN在内的多种架构。工程可调试性不再是替代路线的绝对死刑——它正在从“不可逾越的障碍”变为“可以通过工具投入解决的问题”。

这些力量，没有一股是决定性的。

它们像六条河流，各自发源于不同的山头，但最终汇入了同一条河道。

Transformer就站在那个河道的中心。

不是因为那里是最高的山峰，而是因为在当前这片地形上，大部分的水最终都流向了那里。

但到2026年，地形本身正在发生变化——新的硬件裂缝、新的应用场景、新的学术激励、新的资本叙事——河道开始分叉。水依然大部分流向Transformer，但已有几条细流开始流向新的方向。

如果你问：因果关系到底是怎样的？

答案是：因果关系是循环的。 不存在一个单一的起点。硬件塑造了算法的可能性空间，算法的成功反过来引导了硬件的演进方向，软件生态在两者之间充当了黏合剂和放大器，资本和学术界的激励结构加速了整个循环的转速。

最终的结果是一条被多重力量共同锁定的路径——合理、无奈，甚至在短期内是高效的。

但“高效”不等于“唯一”，更不等于“最优”。而到了2026年，“唯一”这个词已经开始失去它的绝对性。

让我们最后做一次清醒的盘点。

2026年4月的AI技术路线格局，用一句话概括：

Transformer在主战场上的统治地位依然不可动摇，但战场本身正在分化为多个生态位，曾经被宣告死亡的流派正在新的工程条件下找到各自的生存空间——而Transformer自己也在吞噬这些“失败者”的思想，从内部发生深刻变异。

这个格局完美印证了本文的核心论点：当前人工智能技术路线的选择，不是由理论的优雅性、数学的严谨性或生物学的合理性决定的，而是由其在现有硅基工业体系上的工程生存能力决定的。

但这个论点需要一个2026年的补充条款：“现有硅基工业体系”本身不是铁板一块。 当云端GPU集群、边缘神经形态芯片、端侧低功耗处理器构成了多元化的硬件生态时，“工程生存能力”的定义也在分化。在H100集群上活下来的赢家是Transformer；在Loihi 3上活下来的可能是SNN；在边缘设备上活下来的可能是储备池或Neural ODE的变体。

法则没有变。变的是法则作用的环境。

Transformer的伟大不在于它的自注意力机制有多精妙。

它的伟大在于它愿意弯下腰，把自己塞进GPU的模具里。

它不是AI理论皇冠上最璀璨的宝石。它是泥坑混战里最后一个站着的拳手。

但到了2026年，它不再是唯一站着的——只是站得最高的。

那些“倒在血泊里的天才”正在以各种方式回归：SNN在边缘设备上找到了生态位，BNN在十亿参数级别首次实现了工业部署，能量模型以Kona 1.0的形式重返商业竞争，储备池计算通过GPU适配找到了新的效率空间，NTM的记忆思想融化进了Transformer的长上下文架构，因果推理被大模型吸收为推理链路的约束层，Mamba从侧翼发起了第一次有实质威胁的冲击。

更深刻的是，Transformer自己也在变形。 它正在长出稀疏激活的器官（来自SNN的思想）、动态路由的器官（来自胶囊网络的思想）、线性序列处理的器官（来自SSM）、自适应计算深度的器官（来自Neural ODE的思想）。2026年最强的模型不是“纯血”的Transformer，而是吞噬了多个失败者基因的混合体。

这意味着什么？

意味着泥地混战没有最终赢家——只有暂时的王者和不断变化的战场。

理论上最优雅的方案未必赢。工程上最粗暴的方案未必永远赢。在每一个特定的历史时刻、特定的硬件地形、特定的工程约束下，能活下来的那个方案赢——直到地形再次改变。

五十年后的人回头看今天，可能既不会觉得Transformer是终点，也不会觉得它是弯路。他们可能会说：

“那个时代的人在一片极其有限的硬件地形上，用他们能找到的最适配的工具，暴力地撬开了通用智能的第一道缝隙。”

“方法粗糙吗？粗糙。但缝隙确实被撬开了。”

“后来他们的工具开始变形，战场开始分化，曾经倒下的对手开始从泥土里重新爬出来。”

“最终，不是某一个架构赢了。是所有活下来的思想，融合成了一种我们今天还没有名字的东西。”

“而那一切的起点，是一场泥地里的混战。”

“Attention Is NOT All You Need”

全剧终。