knn模型是什么(knn模型原理)

knn模型是什么(knn模型原理)p K 近邻 KNN 模型的原理上示意如下图 p p 比如红色点 挨着其最近的 5 个点 K 5 时 如上图 如果该 5 个点中多数均为 A 类 那么红色点就归为 A 类 需要注意的是 通常情况下 K 值为奇数 因为如果为偶数比如为 6 那么 3 个为 A 类 3 个为 B 类 此时不好划分点的类别 p p 上述中关于挨的最近的距离 p

大家好,我是讯享网,很高兴认识大家。




讯享网

 <p> K近邻KNN模型的原理上示意如下图: </p> <p> 比如红色点,挨着其最近的5个点(K=5时)如上图,如果该5个点中多数均为A类,那么红色点就归为A类。需要注意的是,通常情况下K值为奇数,因为如果为偶数比如为6,那么3个为A类3个为B类,此时不好划分点的类别。 </p> <p> 上述中关于挨的最近的距离,如何进行衡量呢?距离的计算方式非常多,比如欧式距离、曼哈顿距离等,通常情况下使用欧式距离,其计算公式如下: </p> <p style="text-align: center;"> <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mo>欧氏距离</mo><mi>d</mi><mo>=</mo><msqrt><mo stretchy="false">(</mo><msub><mi>y</mi><mrow><mn>1</mn></mrow></msub><mo>−</mo><msub><mi>x</mi><mrow><mn>1</mn></mrow></msub><msup><mo stretchy="false">)</mo><mrow><mn>2</mn></mrow></msup><mo>+</mo><mo stretchy="false">(</mo><msub><mi>y</mi><mrow><mn>2</mn></mrow></msub><mo>−</mo><msub><mi>x</mi><mrow><mn>2</mn></mrow></msub><msup><mo stretchy="false">)</mo><mrow><mn>2</mn></mrow></msup><mo>+</mo><mo>.</mo><mo>.</mo><mo>.</mo><mo>+</mo><mo stretchy="false">(</mo><msub><mi>y</mi><mrow><mi>n</mi></mrow></msub><mo>−</mo><msub><mi>x</mi><mrow><mi>n</mi></mrow></msub><msup><mo stretchy="false">)</mo><mrow><mn>2</mn></mrow></msup></msqrt></math> </p> <p> 比如有两行数据分别3列(即3个X,3个特征项),两行数据分别是(1,2,3)和(3,4,5),那么 <math xmlns="http://www.w3.org/1998/Math/MathML" display="block"><mo>欧氏距离</mo><mi>d</mi><mo>=</mo><msqrt><mo stretchy="false">(</mo><mn>3</mn><mo>−</mo><mn>1</mn><msup><mo stretchy="false">)</mo><mrow><mn>2</mn></mrow></msup><mo>+</mo><mo stretchy="false">(</mo><mn>4</mn><mo>−</mo><mn>2</mn><msup><mo stretchy="false">)</mo><mrow><mn>2</mn></mrow></msup><mo>+</mo><mo stretchy="false">(</mo><mn>5</mn><mo>−</mo><mn>3</mn><msup><mo stretchy="false">)</mo><mrow><mn>2</mn></mrow></msup></msqrt><mo>=</mo><mn>3.464</mn></math> </p> <p> 另外关于K值的选择上,通常建议K介于3~20之间,且一般为奇数值,SPSSAU默认为5,如果说K值太大,容易出现‘过拟合’现象即结果看着很好但事实上不好;如果K值过小,容易出现拟合现象很糟糕(欠拟合)现象。实际使用时,可考虑分别设置不同的K值,然后对模型的优劣进行汇总和对比。 </p> <p> 关于归类问题,上述比如K=5,挨的最近5个点中有3个(超过一半)为A类,那么该点就分为A类,此种分类方式为‘等比投票权’,即5个点的权重完全一致。但我们知道,挨的最近的5个点,其实都能计算出距离值,是否可根据距离值大小来加权判断呢?比如使用距离值的倒数,即1/距离值作为权重,如果距离值越大,权重就越小,并且综合计算来评估类别划分,此种方式叫‘距离反比投票权法’。关于类别划分参数,其叫‘样本投票权重’。 </p> <p> 关于K近邻KNN模型时,通常涉及到以下参数值,如下: </p> <p> 邻近样本个数K值,一般为奇数,并且常介于3~20之间,可设置不同的K值来对比不同模型的优劣。样本投票权重,默认是‘等比投票权’,可选为‘距离反比投票权’,建议K值较小时可考虑使用‘距离反比投票权’法。距离计算方法上,默认是欧式距离,可选曼哈顿距离,通常使用欧式距离即可。邻近搜索方法上,一种是全局搜索,比如100个样本,某个点分别先计算出该点离另外100个样本的距离,然后找出其中最小的K个,此种方式简单易懂,但是计算费资源,因而延伸出KD树和ball树两种优化算法。默认情况下系统会自动结合数据情况选择邻近搜索方法,研究者也可自行选择。 </p> 

讯享网
小讯
上一篇 2025-04-21 07:29
下一篇 2025-05-02 18:37

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/180004.html