字节跳动豆包大模型团队于近日提出超连接(Hyper-Connections),一种简单有效的残差连接替代方案。面向残差连接的主要变体的局限问题,超连接可通过动态调整不同层之间的连接权重,解决梯度消失和表示崩溃(Representation Collapse)之间的权衡困境。在 Dense 模型和 MoE 模型预训练中,超连接方案展示出显著的性能提升效果,使收敛速度最高可加速 80%。
讯享网
-
论文标题:Hyper-Connections -
论文链接:https://arxiv.org/pdf/2409.19606
-
Pre-Norm :在每个残差块之前进行归一化操作,可有效减少梯度消失问题。然而,Pre-Norm 在较深网络中容易导致表示崩溃,即深层隐藏表示过于相似,从而削弱了模型学习能力。 -
Post-Norm :在残差块之后进行归一化操作,有助于减少表示崩溃问题,但也重新引入梯度消失问题。在 LLM 中,通常不会采用此方法。
-
深度连接(Depth-Connections) :这些连接类似于残差连接,只为输入与输出之间的连接分配权重,允许网络学习不同层之间的连接强度。 -
宽度连接(Width-Connections):这些连接使得每一层多个隐藏向量之间可进行信息交换,从而提高模型表示能力。
,网络的初始输入为
,并将其复制 n 次,形成初始的 超隐藏矩阵 (Hyper Hidden Matrix):
,即:
,它可能是 Transformer 中的 attention 层或者是 FFN 层。 超连接的输出
可以简单地表示为:
作为权重对输入
进行加权求和,得到当前层的输入
:
用于将
映射到残差超隐藏矩阵
,表示如下:
的元素可以动态依赖于输入
,动态超连接的矩阵表示为:
和输入
,可以得到动态超连接的输出:
的超连接矩阵:
和
分别表示神经网络层输入和输出的标准差,
表示它们之间的协方差。
的矩阵,右下三角部分填充为 1,其余部分为占位符 0。 对于 Post-Norm,权重依赖于输入和输出的方差及协方差,形成一个
的矩阵。 因此,它们的超连接矩阵是不可训练的。
矩阵,且权重是可训练的,甚至可以基于输入进行动态预测。
| 联系我们 | ||
| 序号 | 负责内容 | 负责人及手机号 |
| 01 | 入会咨询&投稿 | 杨栩生 |
| 02 | 职称&鉴定&大赛 | 杨敏娜 |
| 03 | 校企合作&技能考证 | 黄俊杰 |
| 04 | 品牌活动&国际交流 | 胡玉琴 |
| 05 | 公益培训 | 孙思敏 |
| 06 | 标准制定 | 梁溢维 |
| 07 | 创业孵化 | 王慧君 |
| 08 | 党支部、工会组建&矛盾纠纷调解 |
罗 莹 |
| 09 | 市场对接
|
王 华 |
| 10 | 展会咨询
|
唐剑铭 |
| 非诚勿扰,请根据实际需求咨询相关工作人员 | ||


版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/196085.html