sigmoid算法（sigmoid函数python）

科技前沿 • 2025-06-09 16:04 • 阅读 40

大家好，我是讯享网，很高兴认识大家。

在我们进行分类的时，所取样本中的特征值一般都分布在实数域，但是我们想得到的往往是一个在 [0,1] 中的类似概率的值。或者这么说，为了让特征值之间不会因为相差过大而造成干扰，比如，只有一个特征取值特别大，但是其他取值很小的时候，我们需要对数据进行归一化。即我们需要用一个从R 到 [0,1] 的单射来先处理特征值矩阵，然后再进行机器学习。当所用的映射是 sigmoid函数的时候，我们管这样的机器学习算法叫做逻辑回归。
PS：逻辑回归是用来分类的！！！不是用来做线性回归的！ sigmoid 函数的反函数叫做 logit 函数，这就是逻辑回归 logistic regression 的来历，跟逻辑没啥关系......

讯享网

基本原理
逻辑回归算法跟Adaline 线性自适应算法很类似，区别只不过是把激活函数从恒同映射 y = z 换成了 y = sigmoid(z)

逻辑回归中的损失函数
回忆一下在梯度下降模型 Adaline 中应用到的损失函数 cost function 平方差函数

这是线性回归的一种损失函数
但是对于S型的sigmoid函数，这样的定义在 y 趋近-1，1 的时候会特别接近零
对于逻辑回归 logistic regression 损失函数是这样定义的
对数似然损失函数(交叉熵)
Ps: 一下所有的 log 其实都是 ln

这个损失函数是怎么来的呢？极大似然法
先定义似然函数(每个样本都认为是独立的)：

似然函数可以看成条件概率
关于似然函数的概念可以参考kevinGao的博客

http://www.cnblogs.com/kevinGaoblog/archive/2012/03/29/2424346.html

根据似然函数的概念，令似然函数最大的那个概率就是最合理的。我们想最大化似然函数，但是这个形式还是不够好看，毕竟是连乘的形式，所以，我们取一下对数

现在好了，我们知道：当权向量 w 使 l最大的时候， w 最合理
那么我们就定义 J 函数： J = -l

为了更好的理解，我们看一下单个样本的损失函数：

以y=1为例，当预测值接近正确值的时候， J 会收敛到 0

权值更新
跟梯度下降法一样，按照公式

经过计算

这意味着，我们在单独编写 LogisticRegression 类的时候，只需要在 Adaline类中重新定义一下激励函数 phi 就可以了

我们再上一章 sklearn 实现 Perceptron 感知机的基础上用 Iris 的数据集来实践一下

过拟合与欠拟合是机器学习常见的两个问题

过拟合
俗称想太多。为了很好的拟合训练集，模型使用了太多的参数，变得特别复杂，甚至噪音与误差都被分成了一类，这样的模型虽然对训练集模拟的很好，但是对用来预测的数据集却特别不可靠，我们说：这样的模型 has a high variance (高方差)
-欠拟合
对应的，头脑太简单。模型太过简单以至于对预测用数据集来说也不可靠
我们这这样的模型 has a high bias (高偏差)