马斯克点赞认可,Kimi挑战AI界十一年未变的基础架构

马斯克点赞认可,Kimi挑战AI界十一年未变的基础架构p 科技圈近日因马斯克的一条社交平台评论掀起波澜 这位以直言不讳著称的 AI 领域意见领袖 罕见地对一家中国初创企业的技术成果给予公开肯定 被点赞的并非某款热门产品 而是一篇关于深度学习架构革新的学术论文 其核心突破直指现代大模型的基础组件 p p 引发关注的论文出自月之暗面公司 Kimi 团队 p

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



 

科技圈近日因马斯克的一条社交平台评论掀起波澜。这位以直言不讳著称的AI领域意见领袖,罕见地对一家中国初创企业的技术成果给予公开肯定。被点赞的并非某款热门产品,而是一篇关于深度学习架构革新的学术论文,其核心突破直指现代大模型的基础组件。

引发关注的论文出自月之暗面公司Kimi团队,该研究提出用新型注意力机制替代Transformer架构中沿用近十年的残差连接。传统设计通过将每层输出与输入简单相加的方式传递信息,这种"平等加权"模式虽能维持深层网络训练稳定性,却导致早期信息随层数增加被稀释。研究团队将其类比为微信群聊:所有成员发言权重相同,群主需逐条阅读才能掌握全貌,重要信息极易被淹没。

针对这一缺陷,研究团队设计了分阶段解决方案。初期尝试的"全注意力残差"方案虽能实现动态权重分配,却因需要存储所有层输出导致显存占用激增。经过优化后的"块注意力残差"将网络划分为8个模块,模块间采用注意力机制选择性聚合信息,使内存占用降低90%以上。实验数据显示,该设计在保持推理延迟增加不足2%的同时,使模型性能达到等效1.25倍计算量的传统架构水平。

这项突破在学术界引发连锁反应。论文通过结构化矩阵分析证明,自2015年ResNet提出残差连接以来,包括Highway Networks在内的所有改进方案本质上都是线性注意力的变体。Kimi团队的方案首次在深度维度引入非线性注意力机制,为解决"PreNorm稀释"问题提供了理论依据。测试表明,采用新架构的480亿参数模型在科学问答、数学推理等任务中全面超越基线版本,各层输出幅度和梯度分布更趋均衡。

马斯克的点赞恰逢月之暗面融资关键期。这家成立仅三年的企业正以惊人速度扩张:2025年底完成C轮融资后估值达43亿美元,次年2月C+轮融资后突破百亿美元,3月中旬估值已飙升至180亿美元。其主力产品Kimi K2.5模型发布首月收入即超2025全年总和,个人订阅用户支付订单数连续两月环比增长超百倍,跻身全球支付平台Stripe榜单前十。

高速发展伴随争议。公司近期推出的Kimi Claw云端部署服务因数据安全设计引发OpenClaw创始人彼得·斯坦伯格公开质疑。该产品将用户数据传输至月之暗面服务器进行处理,与OpenClaw"本地优先"的设计理念形成直接冲突。斯坦伯格在社交平台指出,安全文档未作为强制阅读项展示给用户,这种做法可能增加数据泄露风险。受此影响,部分海外技术社区用户表示将暂缓使用该服务。

小讯
上一篇 2026-03-18 13:40
下一篇 2026-03-18 13:38

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/243351.html