2025年rmsprop和adam哪个好（arom和prom）

大家好，我是讯享网，很高兴认识大家。

深度神经网络在机器学习中应用时面临两类主要问题：优化问题和泛化问题。

目前，研究人员通过大量实践总结了一些经验方法，以在神经网络的表示能力、复杂度、学习效率和泛化能力之间取得良好的平衡，从而得到良好的网络模型。本系列文章将从网络优化和网络正则化两个方面来介绍如下方法：

本文将介绍神经网络中的数据预处理方法

本系列实验使用了PyTorch深度学习框架，相关操作如下：

1. 配置虚拟环境

2. 库版本介绍

神经网络的参数学习是一个非凸优化问题．当使用梯度下降法来进行优化网络参数时，参数初始值的选取十分关键，关系到网络的优化效率和泛化能力．参数初始化的方式通常有以下三种：

0. 导入必要的库

1. 随机梯度下降SGD算法

随机梯度下降（Stochastic Gradient Descent，SGD）是一种常用的优化算法，用于训练深度神经网络。在每次迭代中，SGD通过随机均匀采样一个数据样本的索引，并计算该样本的梯度来更新网络参数。具体而言，SGD的更新步骤如下：

a. PyTorch中的SGD优化器

讯享网

b. 使用SGD优化器的前馈神经网络

2.随机梯度下降的改进方法

传统的SGD在某些情况下可能存在一些问题，例如学习率选择困难和梯度的不稳定性。为了改进这些问题，提出了一些随机梯度下降的改进方法，其中包括学习率的调整和梯度的优化。

a. 学习率调整

b. 梯度估计修正

3. 梯度估计修正：动量法Momentum

4. 自适应学习率

5. Adam算法

Adam算法（Adaptive Moment Estimation Algorithm）[Kingma et al., 2015]可以看作动量法和 RMSprop 算法的结合，不但使用动量作为参数更新方向，而且可以自适应调整学习率。

除了参数初始化比较困难之外，不同输入特征的尺度差异比较大时，梯度下降法的效率也会受到影响。一般而言，样本特征由于来源以及度量单位不同，它们的尺度（Scale）（即取值范围）往往差异很大．以描述长度的特征为例，当用“米”作单位时令其值为𝑥，那么当用“厘米”作单位时其值为100𝑥．对于尺度不同的特征，不同的机器学习模型对其敏感程度不同。尺度不变性是指机器学习算法在缩放全部或部分特征后仍能保持学习和预测性能的性质。例如，线性分类器具有尺度不变性，而最近邻分类器则对特征尺度敏感。当计算不同样本之间的欧氏距离时，尺度大的特征会起到主导作用。因此，对于尺度敏感的模型，需要对样本进行预处理，将各个特征转换到相同的取值区间，并消除不同特征之间的相关性，以获得更好的结果。理论上，神经网络应该具有尺度不变性，可以通过参数的调整来适应不同特征的尺度。然而，尺度不同的输入特征会增加训练的难度。以一个只有一层的神经网络为例，如果输入特征的尺度差异很大，那么tanh函数在区间[-2, 2]上的导数会很敏感，而在其他区间上接近于0。因此，如果参数𝑤1𝑥1 + 𝑤2𝑥2 + 𝑏过大或过小，梯度会变得很小，导致难以训练。为了提高训练效率，可以将𝑤1设为较小的值（例如[-0.1, 0.1]之间），从而使𝑤1𝑥1 + 𝑤2𝑥2 + 𝑏在[-2, 2]区间内。然而，当数据维度很多时，手动选择每个参数变得困难。因此，如果每个特征的尺度相似（例如[0, 1]或[-1, 1]），就可以减少人工干预，简化训练过程。数据预处理方法是在训练神经网络之前对数据进行处理，以提高模型的性能和训练效果。常见的数据预处理方法包括标准化、归一化、白化等操作。

1. 标准化

将数据按照特征列进行均值为0，标准差为1的标准化处理。这种方法可以使得数据的分布更加接近正态分布，有助于提高模型的训练效果。

2. 归一化

将数据按照特征列进行线性变换，将数据的取值范围缩放到0到1之间。这种方法可以将不同特征的数据统一到同一个尺度上，避免不同特征之间的差异对模型的影响。

3. 白化

白化（Whitening）是一种重要的预处理方法，用来降低输入数据特征之间的冗余性。输入数据经过白化处理后，特征之间相关性较低，并且所有特征具有相同的方差。白化的一个主要实现方式是使用主成分分析（Principal Component Analysis，PCA）方法去除掉各个成分之间的相关性。

4. 去除异常值

将数据中的异常值进行处理或去除，避免异常值对模型的影响，可以考虑以下几种常见方法：

5. 处理缺失值

对于数据中存在的缺失值，可以通过填充、删除或插值等方法进行处理。