馬斯克點贊!Kimi 論文撼動大模型“祖傳地基”:同樣算力,效率提升 25%

馬斯克點贊!Kimi 論文撼動大模型“祖傳地基”:同樣算力,效率提升 25%同樣的算力與數據 憑什麼有的模型效果更好 月之暗面 Moonshot AI 給出了一個直擊底層邏輯的答案 3 月 16 日 Kimi 發佈重磅技術報告 Attention Residuals 注意力殘差 該研究針對自 2015 年以來幾乎從未被變動的大模型 基石 殘差連接 Residual Connections 進行了徹底重構 實驗證明 在相同算力下

大家好,我是讯享网,很高兴认识大家。这里提供最前沿的Ai技术和互联网信息。



同樣的算力與數據,憑什麼有的模型效果更好? 月之暗面 (Moonshot AI) 給出了一個直擊底層邏輯的答案。

3月16日, Kimi 發佈重磅技術報告 《Attention Residuals》(注意力殘差) 。該研究針對自2015年以來幾乎從未被變動的大模型“基石”——殘差連接(Residual Connections)進行了徹底重構。實驗證明,在相同算力下,新方法訓練出的模型效果等同於基線模型花費 1.25倍 算力達成的水平。

image.png

這一突破迅速引發硅谷 AI 圈震動,在社交媒體公開評價其爲“令人印象深刻的工作(Impressive work from Kimi)”。

Jerry Tworek(OpenAI o1主要發明者): 稱其爲“深度學習2.0”的開端。

Andrej Karpathy(前 OpenAI 聯創): 感慨行業對“Attention is All You Need”的理解仍有挖掘空間。

爲何要動“地基”?

傳統的殘差連接雖然解決了深層網絡難以訓練的問題,但其“等權相加”的方式過於粗暴。隨着網絡加深,每一層的新貢獻極易被龐大的累積信息淹沒,導致大量中間層淪爲“無效幹活”。

image.png

Kimi 的“優雅旋轉”:

團隊發現,深度方向上的信息丟失與 RNN 在時間維度上的遺忘在數學結構上高度一致。於是,他們將原本用於處理文字序列的“注意力機制”橫向轉動90度,應用到了縱向的深度維度上。

通過 ,每一層不再是被動接受疊加信息,而是通過一個微小的“查詢向量”,主動、有選擇性地決定從前面哪些層提取多少信息。爲了解決大規模訓練中的內存開銷,團隊還創新性地提出了 Block AttnRes 方案,將網絡劃分爲若干塊,在確保性能的同時,將推理延遲增量控制在 2% 以內。

image.png

在 的實驗中,該架構展現了極強的泛化能力。在 GPQA-Diamond 科學推理任務上實現了 7.5% 的飛躍,數學與代碼生成任務也分別獲得了 3.6%3.1% 的顯著增益。

image.png

正如創始人 在 GTC2026演講中所言,行業正逐漸遭遇 Scaling 的瓶頸,必須對優化器、殘差連接等底層基石進行重構。當大多數人還在“高層精裝修”時, 選擇下沉到最深處,用一記重錘撬動了深度學習的未來。

小讯
上一篇 2026-03-19 18:10
下一篇 2026-03-19 18:08

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/245279.html