离群点
离群点(outlier)是一个数据对象,它显著不同于其他数据对象,好像它是被不同的机制产生一样。离群点检验就是找出其行为很不同于预期对象的过程。
应用:信用卡欺诈
#离群点类型#
离群点类型:
- 全局离群点
给定数据集中,如果它显著偏离数据集中的其余对象,则成为全局离群点。
- 情景离群点
在给定数据集中,如果关于对象的特定情境,它显著偏离其他对象,则称为情景离群点。
- 集体离群点
在给定数据集中,如果这些对象作为整体显著偏离整个数据集,则数据集的这个子集为集体离群点。
dat1 <- data.frame(x=rnorm(500,0,0.5),y=rnorm(500,0,0.5)) dat2 <- data.frame(x=rnorm(80,3,0.5),y=rnorm(80,3,0.5)) s <- rbind(dat1,dat2) plot(s,col=ifelse(s$x>1.8,"red","black"),main="集体离群点")
讯享网
离群点检测方法#
(一)统计方法
参数方法
- 基于正态分布的离群点检测
正态分布: 1 2 π σ exp { − ( x − μ ) 2 2 σ 2 } \frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\} 2πσ1exp{ −2σ2(x−μ)2}
例:假设某城市过去10年中7月份气温按递增排序为24,28.9,28.9,29,29.1,29.1,29.2,29.2,29.3,29.4。气温服从正态分布,参数为 μ , σ \mu,\sigma μ,σ.
用极大似然估计求 μ , σ \mu,\sigma μ,σ

μ = 1 n Σ i = 1 n x i \mu=\frac{1}{n}\Sigma_{i=1}^nx_i μ=n1Σi=1nxi
σ 2 = 1 n Σ i = 1 n ( x i − x ˉ ) 2 \sigma^2 = \frac{1}{n}\Sigma_{i=1}^n(x_i-\bar{x})^2 σ2=n1Σi=1n(xi−xˉ)2
最后算得 μ = 28.61 \mu=28.61 μ=28.61, σ = 1.51 \sigma=1.51 σ=1.51
正态分布下,区域 μ ± 3 σ \mu\pm3\sigma μ±3σ包含99.7%的数据。最大 偏离值24,偏离估计均值4.61,由于 4.61 1.51 = 3.04 > 3 \frac{4.61}{1.51}=3.04 > 3 1.514.61=3.04>3,因此它被视为离群值。
- 可视化方法(箱线图)
*最小非离群点值
*上四分位数(Q1)
*中位数
*下四分位数(Q3)
*最大离群点值
*四分位极差(IQR):Q3-Q1
比Q1小 1.5 ∗ I Q R 1.5*IQR 1.5∗IQR或比Q3大 1.5 ∗ I Q R 1.5*IQR 1.5∗IQR都作为离群点。
讯享网b <- c(24,28.9,28.9,29,29.1,29.1,29.2,29.2,29.3,29.4) boxplot(b,col ="blue")

非参数方法
- 直方图
- 核密度图
(1) ∫ − ∞ ∞ K ( u ) d u = 1 \int_{-\infty}^{\infty}K(u)du=1 ∫−∞∞K(u)du=1
(2) 对 于 所 有 的 u 值 , K ( − u ) = K ( u ) 对于所有的u值,K(-u) = K(u) 对于所有的u值,K(−u)=K(u)
常用的核函数为均值为0,方差为1的高斯核函数:
K ( x − x i h ) = 1 2 π e x p { − ( x − x i ) 2 2 h 2 } K(\frac{x-x_i}{h})=\frac{1}{\sqrt{2\pi}}exp\{-\frac{(x-x_i)^2}{2h^2}\} K(hx−xi)=2π

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容,请联系我们,一经查实,本站将立刻删除。
如需转载请保留出处:https://51itzy.com/kjqy/19814.html