Mish、β-Mish激活函数

科技前沿 • 2025-01-16 07:53 • 阅读 66

大家好，我是讯享网，很高兴认识大家。

Mish

论文：Mish: A Self Regularized Non-Monotonic Activation Function

年份：2020

通过对激活函数的理论研究，那些类似于Swish的共享特性，包括非单调性、保持小负权值的能力和平滑轮廓。提出多个函数分别为 $arctan(x)\cdot softplus(x)$ 、 $tanh(x)\cdot softplus(x)$ 、 $x\cdot log(1+arctan(e^x))$ 、 $x\cdot log(1+tanh(e^x))$ 通过消融试验，我们确定Mish优化与其它函数，Mish的数学公式为：
$x\cdot tanh(softplus(x)) = x\cdot tanh(log(1+e^x))$

Mish的导数公式为：
$f^\prime(x) = \frac{e^x (4(x+1)+4e^{2x}+e^{3x}+e^x(4x+6)}{(2e^x+e^{2x}+2)^2}$

Mish的曲线与导数曲线如下图所示。

在这里插入图片描述
讯享网

从图中可以发现Mish是一个光滑、连续、自正则化、非单调的激活函数。
Mish是有下界、无下界的激活函数，其范围为 $[\approx-0.31, \infty]$ 。
Mish使用了自门控特性，由于保留了少量的负面信息，Mish通过设计消除了死亡ReLU，这有助于更好的表达和信息流。
由于上面没有边界，Mish避免了饱和，不会导致梯度消失；有下界会导致强正则化的特性。
Mish又是连续可微的，这避免了奇异点，在执行基于梯度的优化时避免了不必要的副作用。
拥有平滑的轮廓对梯度的流动起到了很好的作用，有助于更容易的优化和更好的泛化。

$\beta$ -Mish激活函数

论文：Beta and Alpha Regularizers of Mish Activation Functions for Machine Learning Applications in Deep Neural Networks

年份：2022

$\beta$ -Mish是Mish的广义扩展，使用 $\beta$ 和 $\alpha$ 两个因子来归一化Mish激活函数边界以下的区域。 $\beta$ -Mish使用了一个通用的数学表达式
$x\cdot tanh(ln(1+e^{\frac{\alpha x}{\sqrt{\beta+x^2}}}))$

$\beta$ -Mish的导数为：
$f^\prime(x) = \frac{\frac{\alpha \beta x \sqrt{\beta+x^2 e^{\frac{\alpha x}{\sqrt{\beta +x^2}}}}}{cosh^2(softplusx())}+(x^2+\beta)^2(1+e^{\frac{\alpha x}{\sqrt{\beta +x^2}}}) tanh(softplus(x))}{(x^2 + \beta)^2(1+e^{\frac{\alpha x}{\sqrt{\beta +x^2}}})}$

$\alpha$ 的值由 $\beta$ 决定， $\frac{\alpha}{\beta}= \frac{1}{5}$ ， $\beta$ 的值在 $1\sim 200$ , $\beta$ -Mish避免了饱和，饱和通常会因为接近0的梯度而快速降低训练速度。

具体的 $\beta$ -Mish的函数曲线如下图所示
在这里插入图片描述
导数曲线如下图

$\alpha$ 最好大于0， $\alpha$ 越小，该函数的最小值越大，对负值的正则化越弱。

Mish、β-Mish激活函数

Mish

β \beta β-Mish激活函数

相关推荐

$\beta$ -Mish激活函数