knn模型是什么（knn模型原理）

大家好，我是讯享网，很高兴认识大家。
 <p> K近邻KNN模型的原理上示意如下图： </p> <p> 比如红色点，挨着其最近的5个点（K=5时）如上图，如果该5个点中多数均为A类，那么红色点就归为A类。需要注意的是，通常情况下K值为奇数，因为如果为偶数比如为6，那么3个为A类3个为B类，此时不好划分点的类别。 </p> <p> 上述中关于挨的最近的距离，如何进行衡量呢？距离的计算方式非常多，比如欧式距离、曼哈顿距离等，通常情况下使用欧式距离，其计算公式如下： </p> <p style="text-align: center;"> <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mo>欧氏距离</mo><mi>d</mi><mo>=</mo><msqrt><mo stretchy="false">(</mo><msub><mi>y</mi><mrow><mn>1</mn></mrow></msub><mo>−</mo><msub><mi>x</mi><mrow><mn>1</mn></mrow></msub><msup><mo stretchy="false">)</mo><mrow><mn>2</mn></mrow></msup><mo>+</mo><mo stretchy="false">(</mo><msub><mi>y</mi><mrow><mn>2</mn></mrow></msub><mo>−</mo><msub><mi>x</mi><mrow><mn>2</mn></mrow></msub><msup><mo stretchy="false">)</mo><mrow><mn>2</mn></mrow></msup><mo>+</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>+</mo><mo stretchy="false">(</mo><msub><mi>y</mi><mrow><mi>n</mi></mrow></msub><mo>−</mo><msub><mi>x</mi><mrow><mi>n</mi></mrow></msub><msup><mo stretchy="false">)</mo><mrow><mn>2</mn></mrow></msup></msqrt></math> </p> <p> 比如有两行数据分别3列（即3个X，3个特征项），两行数据分别是（1，2，3）和（3，4，5），那么 <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mo>欧氏距离</mo><mi>d</mi><mo>=</mo><msqrt><mo stretchy="false">(</mo><mn>3</mn><mo>−</mo><mn>1</mn><msup><mo stretchy="false">)</mo><mrow><mn>2</mn></mrow></msup><mo>+</mo><mo stretchy="false">(</mo><mn>4</mn><mo>−</mo><mn>2</mn><msup><mo stretchy="false">)</mo><mrow><mn>2</mn></mrow></msup><mo>+</mo><mo stretchy="false">(</mo><mn>5</mn><mo>−</mo><mn>3</mn><msup><mo stretchy="false">)</mo><mrow><mn>2</mn></mrow></msup></msqrt><mo>=</mo><mn>3.464</mn></math> </p> <p> 另外关于K值的选择上，通常建议K介于3~20之间，且一般为奇数值，SPSSAU默认为5，如果说K值太大，容易出现‘过拟合’现象即结果看着很好但事实上不好；如果K值过小，容易出现拟合现象很糟糕（欠拟合）现象。实际使用时，可考虑分别设置不同的K值，然后对模型的优劣进行汇总和对比。 </p> <p> 关于归类问题，上述比如K=5，挨的最近5个点中有3个（超过一半）为A类，那么该点就分为A类，此种分类方式为‘等比投票权’，即5个点的权重完全一致。但我们知道，挨的最近的5个点，其实都能计算出距离值，是否可根据距离值大小来加权判断呢？比如使用距离值的倒数，即1/距离值作为权重，如果距离值越大，权重就越小，并且综合计算来评估类别划分，此种方式叫‘距离反比投票权法’。关于类别划分参数，其叫‘样本投票权重’。 </p> <p> 关于K近邻KNN模型时，通常涉及到以下参数值，如下： </p> <p> 邻近样本个数K值，一般为奇数，并且常介于3~20之间，可设置不同的K值来对比不同模型的优劣。样本投票权重，默认是‘等比投票权’，可选为‘距离反比投票权’，建议K值较小时可考虑使用‘距离反比投票权’法。距离计算方法上，默认是欧式距离，可选曼哈顿距离，通常使用欧式距离即可。邻近搜索方法上，一种是全局搜索，比如100个样本，某个点分别先计算出该点离另外100个样本的距离，然后找出其中最小的K个，此种方式简单易懂，但是计算费资源，因而延伸出KD树和ball树两种优化算法。默认情况下系统会自动结合数据情况选择邻近搜索方法，研究者也可自行选择。 </p>
讯享网
knn模型是什么（knn模型原理）

相关推荐