这个版本的ResNet应该算是2015 ImageNet上的ResNet的加强版。作者通过探究Identity Mapping来使得网络变得更容易训练,并且能够提高其网络泛化能力
模型对比:
这里插一句题外话,在超分辨率领域中,SRResNet直接利用了本文的结构。
下面分析两种模型的结构:
一、Original结构

其中h(x)为identity mapping, f为ReLu function.
对上面进行整合如下:

那么先来讨论identity mapping,在《Deep Residual Learning for Image Recognition》文章中,提出过几种identity mapping的连接方式。1)直接连接 2)scale connect 3)gating 4)1x1 convolution
然而,实验证明发现keep a clean information path is helpful for easing optimization. 而其他几种方式则会带来较高的训练loss 和 error。
作者发现如果h(x)和f(y)都是identity mapping的话,那么在forward或者backward的时候,信号都能直接propagate from 一个unit to other unit。
因此为了构造identity mapping f(y) = y,因此作者对activation functions(BN和reLU)进行更改,因此也就有了modified的ResNet.
二、modified ResNet结构


此时h(x) = x, f(y) = y。
因此可推导为:

这样表示有两个好处:
1) feature XL可以表示为浅层的xl + 残差累计,真正的实现了残差网络
2)目前的输出可以看做所有preceding residual functions (plus x0),跟VGG这类plain Network不同的是,instead matrix-vector products,目前的算法相当于summation
这就导致了一个非常好的特性:

可以看到上式左边为
和
这便可以发现residualNet在backward的时候,可以将梯度完全的往回传。
实际上,本文的重点就介绍完了。同时,作者也做了几组对照实验:
一、Various types of shortcut connection

事实上这些附加实验显示这些算法并不是很work。
实验结果:

二、Various usages of activation

实验结果:

三、其他
本文的pre-activation的设计思路:

系列文章:
【深度学习】入门理解ResNet和他的小姨子们(一)—ResNet
http://blog.csdn.net/shwan_ma/article/details/
【深度学习】入门理解ResNet和他的小姨子们(二)—DenseNet
http://blog.csdn.net/shwan_ma/article/details/
【深度学习】入门理解ResNet和他的小姨子们(三)—ResNeXt
http://blog.csdn.net/shwan_ma/article/details/
【深度学习】入门理解ResNet和他的小姨子们(四)—WideResNet
http://blog.csdn.net/shwan_ma/article/details/
【深度学习】入门理解ResNet和他的小姨子们(五)—ResNet增强版
http://blog.csdn.net/shwan_ma/article/details/
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/47543.html