2026年3月,大模型初创企业Kimi()发布技术论文提出全新「」,优化大模型深度聚合机制,突破传统长序列处理瓶颈。特斯拉CEO埃隆·马斯克在社交媒体公开点赞该研究为「亮眼工作」,双方趣味互动引发全球AI技术社区热议,该技术被视为长文本大模型架构的重要创新。
美国时间3月16日晚,马斯克在个人X平台账号转发了Kimi团队公开的预印本论文链接,仅配文“Impressive work from ”,不到12小时就获得了超过23万次点赞、4万次转发,其中不乏OpenAI、DeepMind等机构的研究人员留言讨论。
近两年大模型的商业化落地进程中,长文本处理能力已经成为To B、 C场景的核心需求之一:从企业处理上百页的合同、财报,到研发人员通读整个代码库、科研人员梳理领域文献,都需要大模型能够精准捕捉超长上下文中的细节信息。
此前行业普遍的优化方向是扩大上下文窗口容量,但受限于Transformer底层的残差连接架构,窗口越大,长序列前端的信息在多层传递中损耗越严重,实际有效信息留存率往往不足30%,反而拉高了推理成本。作为国内最早布局长文本大模型的厂商之一,Kimi此前推出的支持百万字上下文的产品,已经在商用场景积累了大量的用户反馈,此次技术突破正是基于其长期的场景实践沉淀。
Kimi此次发布的论文《Attention Residuals: Rethinking depth-wise aggregation》,核心是对沿用多年的固定累积残差连接模式提出了改进方案。
传统Transformer架构中,每层的注意力输出只能通过递归的方式向下传递,跨层信息需要经过多轮非线性变换,很容易出现损耗。而注意力残差方法引入了更灵活的深度方向聚合机制,允许注意力输出直接跨层做残差连接,打破了原有计算路径的限制。
根据Kimi公开的测试数据,采用新架构的大模型,长序列信息表达精度最高提升47%,同等上下文长度下推理成本下降22%,同时不需要对现有大模型训练、推理框架做大幅改造,落地成本极低,这也是该研究引发全行业关注的核心原因。
马斯克的公开点赞,以及Kimi官方账号「你的火箭造得也不错」的趣味回应,让原本偏硬核的底层技术研究快速破圈,不仅AI社区讨论热度居高不下,不少非技术领域的用户也开始关注长文本大模型的能力升级。
Kimi相关负责人透露,目前注意力残差架构已经在其最新的内测版大模型中落地,预计2026年4月底就会向所有C端、B端用户开放,升级后的模型在处理百万字级别的长文档、代码库、多轮对话时,信息遗漏率会大幅下降,用户体验会有明显提升。目前已有多家云计算厂商、金融、法律领域的企业客户向Kimi抛出了合作意向,希望基于新架构定制专属的大模型服务。
在注意力残差技术公布之前,大模型底层架构已经有接近5年没有出现过被全行业认可的重大改进,整个行业的优化方向大多集中在扩大参数规模、增加训练数据量等「堆料」路径上,边际效益正在不断下降。
随着注意力残差、线性注意力等架构级创新的陆续出现,大模型的发展正在逐步从「规模优先」转向「效率优先」,未来无论是长文本处理、多模态融合还是端侧部署的可行性,都会有更大的想象空间。
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/241679.html