2026年3月,国内大模型厂商月之暗面( )发布Kimi品牌全新技术报告《Attention Residuals》,对已沿用超10年的大模型底层核心组件残差连接完成重构,同等算力下模型训练效率提升25%。该成果获马斯克、 o1主要发明者Jerry Tworek、前OpenAI联创Andrej Karpathy等全球AI领域核心人物公开认可,被视为大模型底层技术的里程碑式突破。
2015年残差连接技术随ResNet架构诞生后,解决了深度神经网络训练中的梯度消失问题,很快成为包括大语言模型在内所有深度学习模型的通用底层组件,近十年几乎没有颠覆性改动。月之暗面此次发布的注意力残差技术,首次实现了对残差连接逻辑的彻底重构,将注意力机制与残差通路深度融合。
实验数据显示,采用全新注意力残差架构的模型,在相同算力投入下,效果等同于基线模型使用1.25倍算力训练的成果。这意味着在不改变现有算力硬件、训练数据规模的前提下,大模型的能力天花板可以直接提升四分之一。
该技术报告公开后迅速在全球AI圈引发震动,硅谷从业者最先给出了极高评价。马斯克在社交平台公开转发相关成果,评价其为“令人印象深刻的工作(Impressive work from )”;OpenAI o1的核心发明者Jerry Tworek更是将其称为“深度学习2.0的开端”;前OpenAI联创Andrej Karpathy也公开感慨,行业对注意力机制的价值挖掘仍远未到尽头。
过去两年全球AI行业始终面临算力供给紧张、算力成本高企的痛点,25%的效率提升相当于千亿参数大模型的训练成本可直接降低约20%,推理阶段的响应速度、成本也会同步优化,产业价值十分可观。
此前大模型行业的竞争大多集中在参数规模扩张、训练数据量提升、应用场景落地等层面,对底层架构的原生创新相对较少。此次注意力残差技术的突破,也为行业指明了新的竞争方向:在算力边际效益不断下降的当下,底层架构优化带来的收益,远比单纯堆算力、堆参数的投入产出比更高。
如果后续该技术实现开源普及,不仅能降低中小大模型厂商的研发门槛,还能推动端侧大模型的性能再上一个台阶,让手机、智能车等算力有限的终端设备,也能运行能力更强的本地大模型。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/246350.html