说到逻辑回归,可以先回顾下前期的文章《线性回归》。线性回归能够对连续值进行预测,如根据面积对房价进行预测。而在现实生活中,我们还有常见的另一类问题:分类问题。最简单的是二分类问题,即是与否的问题,如得病与否,交易是否合理,能否发放贷款,邮件是否垃圾邮件等。
逻辑回归(logistic regression),虽然名字上有“回归”两字,但它实际应用的是处理分类问题(classification)。它的核心思想是:如果回归的结果输出是一个连续值,而值的范围是无法限定的,那么想办法把这个连续结果值映射为可以帮助我们判断的结果值,从而进行分类。所以,从本质上讲,逻辑回归是在回归的基础上,进行了特殊的改进,而被用于分类问题上。
下面用一个最简单的例子来说明逻辑回归的使用过程。使用的是非常著名的IRIS数据集,也称为鸢尾花数据集。下载地址为:http://archive.ics.uci.edu/ml/。数据集包含150条数据,每条数据包含4个属性,分别是花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)、花瓣宽度(petal width),分为Setosa、Versicolour,Virginica这3个种类,每类50条数据。


由于这个数据集是三分类问题,为了简便起见,重在理解逻辑回归的原理,这里对数据集进行了裁剪,只选取Setosa、Versicolour这两个种类进行二分类。
下面分别从策略、模型、算法三个方面给出问题解决框架。
(1)模型
模型就是所有学习的条件概率分布或决策函数。在这个实例中,我们已知4个影响戈尾花分类的变量花萼长度(sepal length)、花萼宽度(sepal width)、花瓣长度(petal length)、花瓣宽度(petal width),令其分别为x1,x2,x3,x4。我们构建的模型认为是这4个变量的线性组合,于是得到:
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/30114.html