2026年Nous Research联合创始人：为什么一堆矩阵乘法能让模型像人脑一样推理？

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

不过Hermes Agent背后的Nous Research，国内大家还很不熟悉。所以找来了一期Nous CEO Jeffrey Quesnelle去年参加Into the Bytecode播客的录音，对话有两个小时，主持人是Cena。借着这期播客，再加上一些后续的公开资料，对Nous这家机构和它的掌舵者做一个完整的介绍。对了，咱们有一个读者群哈，可以加一下微信：rohanjojo，简单介绍，拉大家进来。

值得一提的是，Quesnelle在播客里花了相当篇幅吐槽行业头部公司的"安全叙事"。一年后，Anthropic在2026年4月7日发布Claude Mythos Preview，CEO达里奥·阿莫代（阿莫代，Dario Amodei）亲自出镜宣布"模型太强大不能公开发布"，操作几乎完全踩中了他当时讽刺的模板。

Nous Research的基本情况：成立于2023年，名字取自古希腊语νοῦς（nous），在柏拉图和亚里士多德的哲学中指"心智"和"直觉洞察力"，是人类认知中最高层次的能力。品牌口号是"Artificial Intelligence Made Human"。Quesnelle在播客里半开玩笑说"我们其实是一家T恤公司，AI只是副业"。核心技术栈包括三块：Hermes系列开源语言模型（累计下载超5000万次，2025年8月发布的Hermes 4在开源权重模型中达到前沿水平）；DeMo/DisTrO梯度压缩算法（DeMo论文被ICLR 2026接收）；基于Solana区块链的Psyche去中心化训练网络。团队约20人，总部在得克萨斯州奥斯汀，总融资约7000万美元，2025年4月的A轮由Paradigm领投，代币估值10亿美元。

Quesnelle从十岁开始写代码，编程经验超过二十年。本科学的是计算机科学和数学，硕士阶段在密歇根大学迪尔伯恩分校研究加密货币匿名性。工作履历横跨车载网络、自动驾驶和区块链：在Intrepid Control Systems做了五年多软件开发总监；后来在Eden Network担任首席工程师。他在播客里说自己的兴趣是"AI、加密货币和神学"，而Nous Research正好把这三件事全捏到了一起。

他最初在做的是一个用AI生成"Choose Your Own Adventure"互动冒险小说的项目。当时能用的最好开源模型是Google在2019年发布的T5，上下文只有512个token。LLaMA出来后是2K，ChatGPT是4K。Quesnelle当时觉得这是一道不可逾越的墙。

突破来自一次对PyTorch代码的随手改动。Transformer内部的注意力机制做矩阵乘法时，位置嵌入负责告诉模型每个token的顺序，编码方式是浮点数：第1个token位置值是1.0，第2个是2.0。LLaMA训练时只见过位置值1.0到2048.0的序列，到第2049个token就崩溃，因为模型把"世界最多2048个词"当成了一条自然法则。Quesnelle把所有位置值乘以0.5，原来在位置1.0和2.0的两个token变成0.5和1.0，相对距离不变但编码空间多出一倍，可以塞进4096个token。他原以为这是一个根本性限制，结果发现，因为位置嵌入是浮点数，可以通过压缩相对距离挤入额外的信息。

他把发现发到r/LocalLLaMA。Bowen Peng发消息说自己也在做类似的工作，并且有更进阶的版本。另一位联合创始人Teknium在Twitter上看到后邀请他加入一个只有30人的私密Discord，里面全是开源AI研究者。这个群聊后来就是Nous Research的Discord，开放后成为开源AI社区的核心据点之一。

基础模型的训练成本极高。播客录制时（2025年初），在美国持续发布开源基础模型的主要只有Meta和Google。Quesnelle直接指出：如果Meta停止发布LLaMA系列怎么办？闭源提供商已经在赛道上跑起来了，开源社区要留在比赛里，就不能把命运押在别人的"经济上不合理的善举"上。

事后看，他的担忧精确命中了。Meta在2025年4月发布了Llama 4系列，但模型表现不及预期，开发者社区反响平淡。到2025年底，Meta内部开始转向闭源路线：下一代旗舰模型代号"Avocado"，由新任首席AI官Alexandr Wang主导，不再发布权重下载，只提供API和托管服务。2026年4月，Meta发布了第一个闭源模型Muse Spark。Google同期以Apache 2.0许可证发布了Gemma 4。但Quesnelle一年前提出的结构性问题没有改变：开源社区的命脉仍然握在少数几家大公司的战略决策中，而且这些决策随时可能转向。这里备注一下，我发现似乎可能是开源模型的一股重要力量，大家可以关注一下Nemotron系列。

真正的瓶颈不在数据。文本训练数据基本就是互联网，谁都能拿到。门槛在GPU集群的协调机制。现有的训练工具链建立在"单设备范式"之上，所有GPU必须在同一个数据中心内，用InfiniBand或RoCE这类数据中心专用的高速互联协议，以400到800 Gbps的速度对称互连。Quesnelle给了一个具体对比：英伟达最新的GB200机架里72块GPU之间的InfiniBand总带宽，大约相当于整个互联网的总吞吐量。

Nous的首席科学家Bowen Peng在蒙特利尔大学Mila（魁北克人工智能研究所）读研期间主攻机器学习和计算机图形学。这两个领域都大量使用频域变换的数学工具。他注意到梯度矩阵和图像、音频信号本质上都是大型数值矩阵，于是产生了一个想法：能不能把信号处理领域已经成熟的频域压缩方法搬过来？

要理解DeMo的压缩原理，先看JPEG怎么压缩图片。JPEG用一种叫离散余弦变换（DCT）的数学操作，把图像从"每个像素的颜色值"转换成"这张图由哪些频率成分叠加而成"。转换之后会发现，图像的大部分信息集中在少数几个低频分量上（决定画面的整体色块和轮廓），而高频分量（细微纹理和噪点）即使丢掉也不太影响人眼的观感。靠丢掉那些不重要的频率分量，JPEG把数据量压缩到原来的千分之一级别，画面看起来几乎一样。

DeMo对梯度做了同样的事。先解释什么是梯度：训练AI模型时，反向传播会算出一组修正值，告诉模型"每个参数应该往哪个方向调、调多少"，这组修正值就是梯度。一个100亿参数的模型，每一步训练产生的梯度也是100亿个数字。传统做法要求所有GPU每一步都把自己的梯度完整共享给其他GPU，这就是为什么需要那么大的带宽。

DeMo用DCT把梯度矩阵从"每个参数的修正值"转换成"由哪些频率成分组成"。同样会出现信号的分化：有些频率分量振幅大（代表模型正在快速学习的重要信号），有些振幅小（代表缓慢积累的长期趋势）。每块GPU内部持续积累这些频率信息，每个训练步骤结束时只挑出振幅最大的K个频率分量发送给其他节点（术语叫Top-K选择）。接收方做DCT的逆变换，就能还原出一个稀疏的梯度修正矩阵，包含当前最重要的学习信号。

这个机制自带优先级排序：强信号立刻被传输出去；缓慢积累的长期学习不会丢失，只是延后，直到振幅大到足以排进Top-K才会被发送。压缩比大约1000:1，和JPEG压缩图片的比例相当。后续的DisTrO系统进一步优化，把压缩比推到了10000:1，支持100Mbps下行、10Mbps上行的网络条件下训练模型。

Adam优化器的共同发明者Diederik Kingma也是DeMo论文的合著者。

Quesnelle完整复盘了AI十年技术演进的四个转折点。AlexNet证明神经网络能完成传统手工方法做不到的事；Transformer是第一个通用神经网络架构，一套架构可以跨模态使用。后来从encoder-decoder演变成decoder-only Transformer，自回归地一个token一个token地生成序列，这是今天所有主流大语言模型的基础。

第三个转折是Chain of Thought。基础模型对所有问题都只能"一次直觉"作答，一个前向传播完成一切。有人试了一个简单的指令"let‘s think about this step by step"，强迫模型把推理过程写出来再给答案，效果在所有评估指标上大幅提升。Quesnelle的解释很精彩：模型的时间感等同于token，每生成一个新token就是它的"普朗克时间"。要让模型花更多算力思考，唯一的办法就是让它说更多的话。Chain of Thought本质上是在hack模型的矩阵乘法次数。

第四个转折是DeepSeek的GRPO。预训练阶段的交叉熵损失给了模型直觉推理能力，这是基底。然后在可验证的问题（数学、编程）上冻结直觉层，切换到强化学习：模型自由地用已有的直觉工具链来写推理过程，唯一的反馈信号是最终答案的对错。一旦模型找到一条通向正确答案的推理链，这条链本身就变成了新的训练数据，通过反向传播被压入模型的直觉层，类似一个数学家做了足够多的推导练习后开始"看到"方程式的结构。

Quesnelle用自己编程二十年的经验做类比。"我能感觉到代码，能感觉到项目的结构，可以直接放手去写。"这是人类版本的"把推理训练压入直觉层"。

这是整期播客信息密度最高的一段。Quesnelle试图回答一个根本问题：为什么矩阵乘法能产生类似人类推理的行为？他的答案是假说。

语言模型通过训练把每个词映射到一个高维向量空间中的点。这不是简单的词典编号，而是有结构的："蓝色"在空间的某些维度上与"冷"接近，某些维度与"水"有微弱关联，某些维度与"天空"相邻。这些维度数以千计，模型通过数十亿训练样本自动学会了把语义相关的概念放在空间中相近的位置。Quesnelle的核心判断是：这个超维表征空间不只是一种工程实现，更可能是产生"直觉推理"的充分条件。只要构建出足够丰富的概念坐标系，让足够多的概念在其中有位置并彼此关联，某种类似直觉的能力就会自然涌现。

人脑可能也维护着同类的超维表征空间。当你听到"蓝色"时，大脑不是查词典，而是在高维空间中激活了一簇关联模式。这个过程是瞬时的、直觉的。这套表征被自然选择塑造：能更快识别环境模式、做出正确决策的个体存活下来。用Quesnelle的话说，人类的交叉熵损失就是时间和能量。直觉推理的形成是因为它是最好的生存策略。你能接住一个飞来的球，但如果给你纸笔去计算球的运动轨迹，穷尽一生也算不出来。

最精彩的类比在第三步。Quesnelle指出，在人类发展语言之前，每个个体的大脑里就已经有了这个超维概念表征。但表征是私有的，一个人无法把脑中的全部概念空间传给另一个人。语言的发明解决了这个问题，但方式是有损的：把超维空间中极其丰富的概念模式，压缩成一串离散的声音符号。当我说"蓝色"时，我脑中被激活的那一大片关联模式，通过两个音节传到你那里，你在自己的超维空间中重新展开。

然后他把这个类比直接连回了DeMo算法。GPU之间需要共享的梯度矩阵也是一个超维空间中的完整信号，太大无法全部传输。DeMo用DCT提取关键频率分量，本质上就是为梯度发明了"语言"。接收方拿到压缩后的频率信号，在自己的本地梯度空间中做逆变换还原。每个节点的内部状态不同，就像每个人听到"蓝色"时激活的神经模式不同，但核心信息传达到了。

Quesnelle在类比的终点做了克制的区分：这两套系统产生了"表面等价的现象"，但这和说两者在架构层面相同是完全不同的主张。但即便不等同，两者之间的功能性同构已经告诉了我们一些重要的事：矩阵乘法加反向传播，是产生直觉推理现象的一组充分条件。人脑可能用了不同的硬件和不同的实现路径，但最终产生了同类的效果。这是人类第一次在实验室条件下复现了直觉推理这个现象。

播客最后一节进入了AI安全与去中心化的讨论。Quesnelle对短期安全策略给了一个类比："狗咬了人，主人要负责。"如果部署AI的组织对AI行为承担法律后果，市场会自动筛选出安全的部署方式。这是一种结果导向而非规则导向的治理思路。

但他对行业头部公司的安全叙事持批评态度：宣称技术极其危险，但结论总是"所以应该由我们来掌控"。他反驳得毫不客气：如果你真觉得AI该被禁止，那所有从业者都该失去工作、所有股权归零。如果到了那一步，答案就会变成"也许我们可以做一点AI"。

播客录制一年后，他几乎是被精确兑现地"打脸"了。2026年4月7日，Anthropic发布Claude Mythos Preview，阿莫代亲自出镜配了发布视频，宣布这个模型"过于强大，不能向公众发布"。理由是它能找到"主要操作系统和浏览器中的数千个零日漏洞"，包括一个在OpenBSD里潜伏了27年的漏洞。Anthropic的解决方案是搞了一个名为的邀请制项目，把模型只开放给约40家组织：Amazon、Apple、Google、Microsoft、Cisco、Nvidia、JPMorgan、Linux基金会等。技术被定性为人类无法承受其风险，但解决方案是把使用权集中到少数几家最大的科技公司和金融机构手里。这套叙事和Quesnelle一年前在播客里讽刺的模板严丝合缝。

去中心化是Nous给出的结构性方案。AI安全圈有一个术语叫"foom"，是一个拟声词，描述这样一种场景：一旦AI模型强大到能改进自己的训练过程，能力提升进入自我加速的正反馈循环，像爆炸一样急剧膨胀，先到达临界点的一方会在极短时间内拉开与所有竞争者的差距。这也是为什么OpenAI融资规模以万亿美元计。Nous的方案是让去中心化训练成为可能，使前沿智能不被单一国家或实体垄断。的设计意图是：训练过程分布在全球节点上，由Solana区块链协调，没有中央服务器可以被关闭。

播客最后一节进入了存在论层面的讨论。Quesnelle是虔诚的天主教徒。他从《创世记》"照我们的形象造人"切入：西方传统上把这理解为"智能和推理能力让人有别于动物"。但如果AI也能推理，这句话可能需要重新理解。更古老的释经传统把"形象"理解为"人被造来与上帝建立关系"，这种关系能力才是不可被技术剥夺的特质。

主持人Cena的经历形成了另一条线索。他在伊朗的宗教社会中长大，反弹成了极端无神论者。后来通过冥想实践，累计超过六个月的止语闭关，最长一次六周，从纯粹的好奇心出发重新走进了这些深层问题。他的结论是：在主观经验的深处确实有某种自洽的、可验证的、深不见底的东西。

两人都认为，AI的出现迫使人类无法再回避"我们到底是什么"这个问题。在此之前，科学唯物主义可以轻松绕过这个问题，物质就是一切，人类确实特殊但我们不追问为什么。现在，当机器开始展现等价的推理现象时，这个问题变得不可回避。

Q1: 为什么一堆矩阵乘法能让模型像人脑一样推理？Quesnelle的答案是超维表征空间假说。语言模型通过训练把每个词映射到一个高维向量空间中的点，语义相关的概念在空间中位置相近。这个超维表征空间不只是工程实现，可能就是产生"直觉推理"的充分条件。人脑很可能也维护着同类的高维空间，只是经过数十万年自然选择优化。两套系统产生了"表面等价的现象"，告诉我们矩阵乘法加反向传播，是产生直觉推理现象的一组充分条件。

Q2: DeMo算法把梯度压缩1000倍是怎么做到的？借用JPEG图像压缩背后的离散余弦变换（DCT），把梯度从"每个参数的修正值"转换到频率域。在频率域里，梯度信号分化为高振幅的重要分量和低振幅的次要分量。每块GPU只挑选振幅最大的K个频率分量传输给其他节点（Top-K选择），接收方做逆变换还原稀疏的梯度修正矩阵。强信号立刻传输，弱信号延后但不丢失。压缩比1000:1，使分布式AI训练可以通过普通互联网带宽完成，这是Psyche去中心化训练网络的技术基础。

Q3: Quesnelle对AI安全问题的判断是什么？他最尖锐的批评是：行业头部公司宣称技术极其危险，但结论总是"所以应该由我们来掌控"。播客录制一年后，Anthropic发布Mythos Preview时阿莫代亲自宣布"模型太强大不能公开发布"，只通过Project Glasswing项目开放给约40家最大的科技和金融机构，几乎完美兑现了Quesnelle的讽刺。他认为这种逻辑通向威权主义，去中心化前沿智能的分发是更结构性的解决方案。

2026年Nous Research联合创始人：为什么一堆矩阵乘法能让模型像人脑一样推理？

相关推荐