rmsprop优化器优缺点（rmsprop优化器怎么读）

科技前沿 • 2025-05-17 18:04 • 阅读 90

大家好，我是讯享网，很高兴认识大家。

这里我们对梯度下降算法，随机梯度下降算法和小批次梯度下降算法这三个优化算法进行辨析。

参考书中关于这三个算法的描述：

梯度下降算法：

随机梯度下降算法：

小批次梯度下降算法：

注意：会平均批内的导数。

三个算法的关系：

整批随机梯度（Full-Batch Stochastic Gradient）：如果在随机梯度下降中选择整个训练数据集作为数据集合S，那么这个过程实际上等同于经典的梯度下降算法。在这种情况下，梯度是基于整个数据集计算的，因此每次更新都会稳定地朝着最小化方向移动。

小批随机梯度（Mini-Batch Stochastic Gradient）：当在随机梯度下降中只选择一部分（小批次）数据点作为数据集合S时，这就是小批次梯度下降算法。在这种情况下，虽然每次更新依赖于随机选取的小批数据，但整体算法在计算效率和收敛性上表现更好。

但是注意到一般来说传统意义上的梯度下降算法就是计算一个样本点的梯度，这本书上的概念有点不同。

三个算法的对比表格：