2025年sigmod激活函数（sigmod激活函数的导数）

大家好，我是讯享网，很高兴认识大家。

relu作为激活函数梯度为1_YOLO v4
讯享网

函数表达式：

relu作为激活函数梯度为1_激活函数_02

relu作为激活函数梯度为1_YOLO v4_03

优点：

是一个便于求导的平滑函数；
能压缩数据，使输出保证在之间（相当于对输出做了归一化），保证数据幅度不会有问题；(有上下界)
适合用于前向传播，但是不利于反向传播。

缺点：

容易出现梯度消失(gradient vanishing)，不利于权重更新；
不是0均值（zero-centered）的，这会导致后层的神经元的输入是非0均值的信号，这会对梯度产生影响。以 f=sigmoid(wx+b)为例，假设输入均为正数（或负数），那么对w的导数总是正数（或负数），这样在反向传播过程中要么都往正方向更新，要么都往负方向更新，导致有一种捆绑效果，使得收敛缓慢。
指数运算，相对耗时。

hard-Sigmoid函数时Sigmoid激活函数的分段线性近似。

函数公式：

relu作为激活函数梯度为1_函数表达式_05

relu作为激活函数梯度为1_激活函数_06

relu作为激活函数梯度为1_目标检测_07

优点：

从公示和曲线上来看，其更易计算，没有指数运算，因此会提高训练的效率。

缺点：

首次派生值为零可能会导致神经元died或者过慢的学习率。

函数表达式：

relu作为激活函数梯度为1_目标检测_08

Tanh函数图像及其导函数图像:

relu作为激活函数梯度为1_目标检测_09

优点：

解决了Sigmoid函数的非zero-centered问题
能压缩数据，使输出保证在之间（相当于对输出做了归一化），保证数据幅度不会有问题；(有上下界)

缺点:

还是容易出现梯度消失(gradient vanishing)，不利于权重更新；
指数运算，相对耗时。

函数表达式：

relu作为激活函数梯度为1_目标检测_11

relu作为激活函数梯度为1_relu作为激活函数梯度为1_12

优点:

ReLu的收敛速度比 sigmoid 和 tanh 快；
输入为正时，解决了梯度消失的问题，适合用于反向传播。；
计算复杂度低，不需要进行指数运算；

缺点:

ReLU的输出不是zero-centered；
ReLU不会对数据做幅度压缩，所以数据的幅度会随着模型层数的增加不断扩张。(有下界无上界)
Dead ReLU Problem（神经元坏死现象）：x为负数时，梯度都是0，这些神经元可能永远不会被激活，导致相应参数永远不会被更新。（输入为负时，函数存在梯度消失的现象）

函数表达式：

relu作为激活函数梯度为1_relu作为激活函数梯度为1_13

relu作为激活函数梯度为1_函数表达式_14

relu作为激活函数梯度为1_目标检测_15

函数表达式：

relu作为激活函数梯度为1_relu作为激活函数梯度为1_16

relu作为激活函数梯度为1_YOLO v4_17

relu作为激活函数梯度为1_激活函数_18

relu作为激活函数梯度为1_函数表达式_19

解决上述的dead ReLU现象，让负数区域也会梯度消失；

理论上Leaky ReLU 是优于ReLU的，但是实际操作中，并不一定。

函数公式：

relu作为激活函数梯度为1_目标检测_20

注意：

, 变为ReLU
, 变为Leaky ReLU
是可学习的参数, 变为PReLU

relu作为激活函数梯度为1_YOLO v4_27

可以避免dead ReLU现象；
与ELU相比,输入为负数时不会出现梯度消失。

函数表达式：

relu作为激活函数梯度为1_目标检测_28

ELU函数图像及其导数图像（ relu作为激活函数梯度为1_激活函数_29 ）：

relu作为激活函数梯度为1_目标检测_30

优点：

有ReLU的所有优点，且没有Dead ReLU Problem（神经元坏死现象）；
输出是zero-centered的，输出平均值接近0；
通过减少偏置偏移的影响，使正常梯度更加接近自然梯度，从而使均值向0加速学习。

缺点：

计算量更高了。

理论上ELU优于ReLU, 但是真实数据下，并不一定。

SELU就是在ELU的基础上添加了一个 relu作为激活函数梯度为1_YOLO v4_31 参数，且 relu作为激活函数梯度为1_函数表达式_32

函数表达式：

relu作为激活函数梯度为1_relu作为激活函数梯度为1_33

ELU函数图像和SELU函数图像对比( relu作为激活函数梯度为1_目标检测_34 )：

relu作为激活函数梯度为1_函数表达式_35

SELU函数图像及其导数图像（ relu作为激活函数梯度为1_目标检测_34 ）：

relu作为激活函数梯度为1_激活函数_37

以前的ReLU、P-ReLU、ELU等激活函数都是在负半轴坡度平缓，这样在激活的方差过大时可以让梯度减小，防止了梯度爆炸，但是在正半轴其梯度简答的设置为了1。而SELU的正半轴大于1，在方差过小的时候可以让它增大，但是同时防止了梯度消失。这样激活函数就有了一个不动点，网络深了之后每一层的输出都是均值为0，方差为1.

函数表达式：

relu作为激活函数梯度为1_YOLO v4_38