2025年梯度提升和梯度下降(梯度下降的优缺点)

梯度提升和梯度下降(梯度下降的优缺点)p class f center p

大家好,我是讯享网,很高兴认识大家。




讯享网

 <p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1030%2F2fa799c7j00sm5c8d001kd000hs00a5g.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34NFB6A6">Differential Transformer 引入了一种新的注意力机制,通过减少不相关的上下文来改进传统的 Transformer。它通过使用差分注意力机制来实现这一点,其中注意力分数计算为两个 softmax 注意力图之间的差异。这有助于消除噪音并促进稀疏注意力模式,从而更好地关注相关上下文。实验表明,Diff Transformer 优于标准 Transformer,特别是在长上下文建模、关键信息检索、幻觉减少和上下文学习等领域。它还提供了更好的鲁棒性,可以解决输入序列中的顺序排列等问题。</p><p>Differential Transformer</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1030%2Fb19bb4fbj00sm5c8d000vd000hs007kg.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34NFB6A8">Diff Transformer 在仅解码器模型结构的基础上引入了差分注意力机制,用两个抵消噪声的 softmax 函数取代了传统的 softmax 注意力。每层都包含差分注意力模块和前馈网络。采用多头差分注意力,每个头的注意力独立处理,并使用 RMSNorm 和 headwise 归一化进行归一化,以保持训练稳定性。</p><p id="34NFB6A9">差分注意力机制的灵感来自电子工程中的差分放大器,旨在通过从两个 softmax 函数中减去注意力分数来消除常见噪声。FlashAttention 用于提高效率,而多头差分注意力允许跨不同注意力头实现更丰富的语境化。该架构集成了 LLaMA 等模型的改进,包括 SwiGLU 激活函数和 pre-RMSNorm。</p><p>实验</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1030%2Fe89f1e80j00sm5c8e002sd0012w00adg.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34NFB6AB">LM Eval Harness 基准的零样本结果表明,与经过良好调整的模型相比,Diff Transformer 的表现更佳。此外,实验表明,在使用可比训练设置以确保公平比较的情况下,DIFF Transformer 在各种任务中的表现始终优于标准 Transformer。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1030%2Fc2814d43j00sm5c8f000zd000hs007yg.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34NFB6AD">6.8B 大小的 Diff Transformer 实现了与 11B 大小的 Transformer 相当的验证损失,而只需要 62.2% 的参数。同样,7.8B 大小的 Diff Transformer 的性能与 13.1B 大小的 Transformer 相当,而只需要 59.5% 的参数。使用 160B 个 token 训练的 Diff Transformer 实现了与使用 251B 个 token 训练的 Transformer 相当的性能,而仅消耗 63.7% 的训练 token。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1030%2Fc73bbc55j00sm5c8g001kd000hs00iag.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34NFB6AF">Diff Transformer 可以有效利用不断增加的背景。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1030%2Fbj00sm5c8g0013d000hs0085g.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34NFB6AH">作者在关键信息检索任务上评估了 Diff Transformer 和标准 Transformer 模型的性能,上下文长度从 8K 到 64K 个 token。结果表明,Diff Transformer 在不同上下文长度下保持稳定的准确率,而标准 Transformer 的准确率则随着上下文长度的增加而下降。例如,在 64K 上下文中深度为 25% 时,Diff Transformer 的准确率比 Transformer 提高了 76%。</p><p id="34NFB6AI">此外,注意力分数分析表明,Diff Transformer 为相关答案跨度分配了更高的注意力分数,并降低了注意力噪音,与 Transformer 相比更好地保留了有用信息,尤其是当关键信息位于上下文中的不同位置时。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1030%2Ff67b7b04j00sm5c8g0032d0012w00cdg.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34NFB6AK">与 Transformer 相比,Diff Transformer 在摘要和问答中减轻了上下文幻觉。这种改进可能源于 Diff Transformer 更好地关注任务所需的基本信息,而不是无关的上下文。</p><p class="f_center"><img src="https://nimg.ws.126.net/?url=http%3A%2F%2Fdingyue.ws.126.net%2F2024%2F1030%2Fe77fc612j00sm5c8h0018d000hs008cg.jpg&thumbnail=660x&quality=80&type=jpg"/><br/><br/></p><p id="34NFB6AM">消融研究:</p><p><ul><li id="34NFB6AP">即使将注意力头的数量减半以保持模型大小,Diff Transformer 在整体和细粒度损失方面都优于 Transformer。</li><li id="34NFB6AQ">从 Diff Transformer 中删除 GroupNorm 会导致性能下降,因为 GroupNorm 有助于通过对多个 head 之间的不同统计数据进行归一化来稳定训练。相比之下,将 GroupNorm 添加到 Transformer 效果不大。</li><li id="34NFB6AR">Diff Transformer 的主要改进源于差异化注意力机制,而不是配置变化或规范化方法。</li><li id="34NFB6AS">初始化 λ 参数(用于差分注意)的各种策略对验证损失的影响很小,这表明 Diff Transformer 对不同的初始化选择都具有鲁棒性。默认使用值为λinit = 0.8 − 0.6 × exp(−0.3 · (l − 1))</li></ul></p><p id="34NFB6AN">参考:</p><p id="34NFB6AO">https://arxiv.org/abs/2410.05258</p> 

讯享网
小讯
上一篇 2025-04-28 10:29
下一篇 2025-06-02 09:40

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/171351.html