2025年resnet简介（resnet特点）

大家好，我是讯享网，很高兴认识大家。

Resnet是一种深度神经网络架构，被广泛用于计算机视觉任务，特别是图像分类。它是由微软研究院的研究员于2015年提出的，是深度学习领域的重要里程碑之一。

理论上来讲，随着网络的层数的增加，网络能够进行更加复杂的特征提取，可以取得更好的结果。但是实验发现深度网络出现了退化问题，如下图所示。网络深度增加时，网络准确度出现饱和，之后甚至还快速下降。而且这种下降不是因为过拟合引起的，而是因为在适当的深度模型上添加更多的层会导致了更高的训练误差，从而使其下降。

讯享网

图1 网络深度对比（来源：Resnet的论文）

当你使用深度神经网络进行训练时，网络层可以被看作是一系列的函数堆叠，每个函数代表一个网络层的操作，这里我们就记作。在反向传播过程中，梯度是通过链式法则逐层计算得出的。假设每个操作的梯度都小于1，因为多个小于1的数相乘可能会导致结果变得更小。在神经网络中，随着反向传播的逐层传递，梯度可能会逐渐变得非常小，甚至接近于零，这就是梯度消失问题。

而如果经过网络层操作后的输出值大于1，那么反向传播时梯度可能会相应地增大。这种情况下，梯度爆炸问题可能会出现。梯度爆炸问题指的是在深度神经网络中，梯度逐渐放大，导致底层网络的参数更新过大，甚至可能导致数值溢出。

在ResNet提出之前，所有的神经网络都是通过卷积层和池化层的叠加组成的。所以，Resnet对后面计算机视觉的发展影响是巨大的。

图2 残差结构（来源：Resnet的论文）

它这里完成的一个很简单的过程，我先举一个例子：

想象一张经过神经网络处理后的低分辨率图像。为了提高图像的质量，我们引入了一个创新的思想：将原始高分辨率图像与低分辨率图像之间的差异提取出来，形成了一个残差图像。这个残差图像代表了低分辨率图像与目标高分辨率图像之间的差异或缺失的细节。

图3 残差图像

然后，我们将这个残差图像与低分辨率图像相加，得到一个结合了低分辨率信息和残差细节的新图像。这个新图像作为下一个神经网络层的输入，使网络能够同时利用原始低分辨率信息和残差细节信息进行更精确的学习。

图4 残差+低分辨率图像

通过这种方式，我们的神经网络能够逐步地从低分辨率图像中提取信息，并通过残差图像的相加操作将遗漏的细节加回来。这使得网络能够更有效地进行图像恢复或其他任务，提高了模型的性能和准确性。

我相信我已经成功表达了残差结构的思想和操作过程。其实这个思想也并非是resnet创新的，在我们过去的其他领域中早已有这种思想，ResNet将这一思想引入了计算机视觉领域，并在深度神经网络中的训练中取得了重要突破。这种创新在一定程度上解决了深层神经网络训练中的梯度消失和梯度爆炸问题，使得网络能够更深更准确地学习特征和表示。

（1）对于相同的输出特征图尺寸，层具有相同数量的滤波器

（2）当feature map大小降低一半时，feature map的数量增加一倍【过滤器（可以看作是卷积核的集合）的数量增加一倍】，这保持了网络层的复杂度。然后通过步长为2的卷积层直接执行下采样。

网络结构具体如下图所示：