离群点检验方法

离群点检验方法离群点 离群点 outlier 是一个数据对象 它显著不同于其他数据对象 好像它是被不同的机制产生一样 离群点检验 就是找出其行为很不同于预期对象的过程 应用 信用卡欺诈 离群点类型 离群点类型 全局离群点 给定数据集中 如果它显著偏离数据集中的其余对象 则成为全局离群点 情景离群点 在给定数据集中

大家好,我是讯享网,很高兴认识大家。

离群点

离群点(outlier)是一个数据对象,它显著不同于其他数据对象,好像它是被不同的机制产生一样。离群点检验就是找出其行为很不同于预期对象的过程。

应用:信用卡欺诈

#离群点类型#

离群点类型:

  1. 全局离群点

给定数据集中,如果它显著偏离数据集中的其余对象,则成为全局离群点。

  1. 情景离群点

在给定数据集中,如果关于对象的特定情境,它显著偏离其他对象,则称为情景离群点。

  1. 集体离群点

在给定数据集中,如果这些对象作为整体显著偏离整个数据集,则数据集的这个子集为集体离群点。

dat1 <- data.frame(x=rnorm(500,0,0.5),y=rnorm(500,0,0.5)) dat2 <- data.frame(x=rnorm(80,3,0.5),y=rnorm(80,3,0.5)) s <- rbind(dat1,dat2) plot(s,col=ifelse(s$x>1.8,"red","black"),main="集体离群点") 

讯享网

这里写图片描述
讯享网

离群点检测方法#

(一)统计方法

参数方法

  1. 基于正态分布的离群点检测

正态分布: 1 2 π σ exp ⁡ { − ( x − μ ) 2 2 σ 2 } \frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\} 2π σ1exp{ 2σ2(xμ)2}

例:假设某城市过去10年中7月份气温按递增排序为24,28.9,28.9,29,29.1,29.1,29.2,29.2,29.3,29.4。气温服从正态分布,参数为 μ , σ \mu,\sigma μ,σ.

用极大似然估计求 μ , σ \mu,\sigma μ,σ

μ = 1 n Σ i = 1 n x i \mu=\frac{1}{n}\Sigma_{i=1}^nx_i μ=n1Σi=1nxi
σ 2 = 1 n Σ i = 1 n ( x i − x ˉ ) 2 \sigma^2 = \frac{1}{n}\Sigma_{i=1}^n(x_i-\bar{x})^2 σ2=n1Σi=1n(xixˉ)2
最后算得 μ = 28.61 \mu=28.61 μ=28.61, σ = 1.51 \sigma=1.51 σ=1.51

正态分布下,区域 μ ± 3 σ \mu\pm3\sigma μ±3σ包含99.7%的数据。最大 偏离值24,偏离估计均值4.61,由于 4.61 1.51 = 3.04 > 3 \frac{4.61}{1.51}=3.04 > 3 1.514.61=3.04>3,因此它被视为离群值。

  1. 可视化方法(箱线图)

*最小非离群点值
*上四分位数(Q1)
*中位数
*下四分位数(Q3)
*最大离群点值
*四分位极差(IQR):Q3-Q1

比Q1小 1.5 ∗ I Q R 1.5*IQR 1.5IQR或比Q3大 1.5 ∗ I Q R 1.5*IQR 1.5IQR都作为离群点。

讯享网b <- c(24,28.9,28.9,29,29.1,29.1,29.2,29.2,29.3,29.4) boxplot(b,col ="blue") 

这里写图片描述

非参数方法

  1. 直方图
  2. 核密度图

(1) ∫ − ∞ ∞ K ( u ) d u = 1 \int_{-\infty}^{\infty}K(u)du=1 K(u)du=1

(2) 对 于 所 有 的 u 值 , K ( − u ) = K ( u ) 对于所有的u值,K(-u) = K(u) uK(u)=K(u)

常用的核函数为均值为0,方差为1的高斯核函数:
K ( x − x i h ) = 1 2 π e x p { − ( x − x i ) 2 2 h 2 } K(\frac{x-x_i}{h})=\frac{1}{\sqrt{2\pi}}exp\{-\frac{(x-x_i)^2}{2h^2}\} K(hxxi)=2π

小讯
上一篇 2025-01-14 10:35
下一篇 2025-03-26 21:22

相关推荐

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/19814.html