目录
1.理论介绍
2.修改步骤
2.1 步骤一
2.2 步骤二
2.3 步骤三

1.理论介绍

考虑到语言模型预训练的巨大成本,对优化算法进行重大改进将大大减少训练的时间和成本。Adam及其变体多年来一直是最先进的,而更复杂的二阶(基于hessian的)优化器通常会导致过多的每一步开销。在本文中,我们提出了索菲亚,二阶裁剪随机优化,一个简单的可扩展的二阶优化器,它使用对角线Hessian的轻量级估计作为前置条件。更新是梯度的移动平均值除以估计的Hessian的移动平均值,然后是元素裁

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/204861.html