2026年月之暗面重构大模型残差连接算力效率提25%获马斯克点赞

科技前沿 • 2026-03-26 20:48 • 阅读 0

大家好，我是讯享网，很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。

2026年3月，国内大模型厂商月之暗面（）发布Kimi品牌全新技术报告《Attention Residuals》，对已沿用超10年的大模型底层核心组件残差连接完成重构，同等算力下模型训练效率提升25%。该成果获马斯克、 o1主要发明者Jerry Tworek、前OpenAI联创Andrej Karpathy等全球AI领域核心人物公开认可，被视为大模型底层技术的里程碑式突破。

2015年残差连接技术随ResNet架构诞生后，解决了深度神经网络训练中的梯度消失问题，很快成为包括大语言模型在内所有深度学习模型的通用底层组件，近十年几乎没有颠覆性改动。月之暗面此次发布的注意力残差技术，首次实现了对残差连接逻辑的彻底重构，将注意力机制与残差通路深度融合。

实验数据显示，采用全新注意力残差架构的模型，在相同算力投入下，效果等同于基线模型使用1.25倍算力训练的成果。这意味着在不改变现有算力硬件、训练数据规模的前提下，大模型的能力天花板可以直接提升四分之一。

该技术报告公开后迅速在全球AI圈引发震动，硅谷从业者最先给出了极高评价。马斯克在社交平台公开转发相关成果，评价其为“令人印象深刻的工作（Impressive work from ）”；OpenAI o1的核心发明者Jerry Tworek更是将其称为“深度学习2.0的开端”；前OpenAI联创Andrej Karpathy也公开感慨，行业对注意力机制的价值挖掘仍远未到尽头。

过去两年全球AI行业始终面临算力供给紧张、算力成本高企的痛点，25%的效率提升相当于千亿参数大模型的训练成本可直接降低约20%，推理阶段的响应速度、成本也会同步优化，产业价值十分可观。

此前大模型行业的竞争大多集中在参数规模扩张、训练数据量提升、应用场景落地等层面，对底层架构的原生创新相对较少。此次注意力残差技术的突破，也为行业指明了新的竞争方向：在算力边际效益不断下降的当下，底层架构优化带来的收益，远比单纯堆算力、堆参数的投入产出比更高。

如果后续该技术实现开源普及，不仅能降低中小大模型厂商的研发门槛，还能推动端侧大模型的性能再上一个台阶，让手机、智能车等算力有限的终端设备，也能运行能力更强的本地大模型。

2026年月之暗面重构大模型残差连接 算力效率提25%获马斯克点赞

相关推荐

2026年月之暗面重构大模型残差连接算力效率提25%获马斯克点赞