箱线图算法_对于异常值的检测

⑴ 应用层次聚类帮助老师实施差异化教学

假设你是一个班主任，拿到学生的入学成绩，刚接触学生，对学生不是很了解，那么我们如何对学生有效的分组帮助他们快速的成长，怎么分组开展个性化教学呢？
传统简单的办法，我们习惯根据考试成绩来分组，但是每个学生不同学科的成绩差异很大，数学好的英语可能很差，我们常说物以类聚，人以群分，有相同学习目标的人放在一起容易形成共鸣，学习积极性也会高很多，因此我们希望能够帮助老师把学生合理的分组，这个问题事先我们并不知道学生属于哪个组，也不知道具体需要分成几个组，不大适合使用K均值来实现，我们应用层次聚类帮助老师实施差异化教学分组。

便于说明算法的工作原理，我们采集了12个人两门课程的入学成绩数据。
在工作面板上拖动一个数据表组件（Data Table）连接文件组件（File）可以查看数据表格。

层次聚类试图在不同层次对数据集进行划分，从而形成树形的聚类结构。数据集划分可采用"自底向上"的聚合策略，也可采用"自顶向下"的分拆策略。

计算两个组合数据点间距离的方法有三种，分别为Single Linkage，Complete Linkage和Average Linkage。在开始计算之前，我们先来介绍下这三种计算方法以及各自的优缺点。

Single Linkage

Single Linkage的计算方法是将两个组合数据点中距离最近的两个数据点间的距离作为这两个组合数据点的距离。这种方法容易受到极端值的影响。两个很相似的组合数据点可能由于其中的某个极端的数据点距离较近而组合在一起。

Complete Linkage

Complete Linkage的计算方法与Single Linkage相反，将两个组合数据点中距离最远的两个数据点间的距离作为这两个组合数据点的距离。Complete Linkage的问题也与Single Linkage相反，两个不相似的组合数据点可能由于其中的极端值距离较远而无法组合在一起。

Average Linkage

Average Linkage的计算方法是计算两个组合数据点中的每个数据点与其他所有数据点的距离。将所有距离的均值作为两个组合数据点间的距离。这种方法计算量比较大，但结果比前两种方法更合理。

如图所示，我们将全部12个同学的成绩用散点图绘制，根据常识，我们将样本距离近的归为一类，直观的，我们将这12个样本分为4类比较合理，分别表示英语和数学成绩都正常发展的，英语偏科的，数学偏科的以及英语和数学发展都相对落后的。图中用四个不同颜色的区域表示这个类同学。

为达到分类的目的，首先应用距离组件（Distances）计算样本对之间的距离，简单地，我们选择欧式距离，也就是平时我们说的平面上两个点之间的直线距离。

那么层次聚类怎么工作的呢？首先我们把每一个点看成是一个类，从散点图上我们可以看出李瑞和洪海之间的距离最近，因此我们首先把这两个点（类）归为一类，重复这个过程，每次合并两个类，直到整个集合都被归为一个类，层次聚类的过程如图所示，最后我们选择一个合适的层数来决定具体我们要划分为多少个类。

最后我们借助箱线图来分析分类的结果。

不同于分类问题，聚类样本没有已知的标签。类似于学生的分组，没有一个具体的标准去评判分组的好坏，要根据具体应用去判断最终的聚类结果的价值。

⑵ 对于异常值的检测

离群点，是一个数据对象，它显着不同于其他数据对象，与其他数据分布有较为显着的不同。有时也称非离群点为“正常数据”，离群点为“异常数据”。

离群点跟噪声数据不一样，噪声是被观测变量的随机误差或方差。一般而言，噪声在数据分析（包括离群点分析）中不是令人感兴趣的，需要在数据预处理中剔除的，减少对后续模型预估的影响，增加精度。

离群点检测是有意义的，因为怀疑产生它们的分布不同于产生其他数据的分布。因此，在离群点检测时，重要的是搞清楚是哪种外力产生的离群点。

常见的异常成因:

通常，在其余数据上做各种假设，并且证明检测到的离群点显着违反了这些假设。如统计学中的假设检验，基于小概率原理，对原假设进行判断。一般检测离群点，是人工进行筛选，剔除不可信的数据，例如对于房屋数据，面积上万，卧室数量过百等情况。而在面对大量的数据时，人工方法耗时耗力，因此，才有如下的方法进行离群点检测。

统计学方法是基于模型的方法，即为数据创建一个模型，并且根据对象拟合模型的情况来评估它们。大部分用于离群点检测的统计学方法都是构建一个概率分布模型，并考虑对象有多大可能符合该模型。

离群点的概率定义：离群点是一个对象，关于数据的概率分布模型，它具有低概率。这种情况的前提是必须知道数据集服从什么分布，如果估计错误就造成了重尾分布。

a. 参数法：

当数据服从正太分布的假设时在正态分布的假定下，u±3σ区域包含99.7%的数据，u±2σ包含95.4%的数据，u±1σ包含68.3%的数据。其区域外的数据视为离群点。

当数据是非正态分布时，可以使用切比雪夫不等式，它对任何分布形状的数据都适用。根据切比雪夫不等式，至少有(1-1/k 2 )的数据落在±k个标准差之内。所以，有以下结论：

计算得到：通过绘制箱线图可以直观地找到离群点，或者通过计算四分位数极差（IQR）定义为Q3-Q1。比Q1小1.5倍的IQR或者比Q3大1.5倍的IQR的任何对象都视为离群点，因为Q1-1.5IQR和Q3+1.5IQR之间的区域包含了99.3%的对象。

涉及两个或多个属性或变量的数据称为多元数据。核心思想是把多元离群点检测任务转换成一元离群点检测问题。

- 卡方统计量的多元离群点检测 ：正态分布的假定下，卡方统计量也可以用来捕获多元离群点，对象，卡方统计量是：，是在第i维上的值，是所有对象在第i维上的均值，而n是维度。如果对象的卡方统计量很大，则该对象是离群点。

b. 非参数法：

构造直方图
为了构造一个好的直方图，用户必须指定直方图的类型和其他参数（箱数、等宽or等深）。最简单的方法是，如果该对象落入直方图的一个箱中，则该对象被看做正常的，否则被认为是离群点。也可以使用直方图赋予每个对象一个离群点得分，比如对象的离群点得分为该对象落入的箱的容积的倒数。但这个方法很难选择一个较好的直方图参数。

注意：
传统的观点都认为孤立点是一个单独的点,然而很多的现实情况是异常事件具有一定的时间和空间的局部性,这种局部性会产生一个小的簇.这时候离群点（孤立点）实际上是一个小簇（图下图的C1和C3）。

一个对象是异常的，如果它远离大部分点。这种方法比统计学方法更一般、更容易使用，因为确定数据集的有意义的邻近性度量比确定它的统计分布更容易。不依赖统计检验，将基于邻近度的离群点看作是那些没有“足够多“邻居的对象。这里的邻居是用 邻近度（距离） 来定义的。最常用的距离是绝对距离（曼哈顿）和欧氏距离等等。

一个对象的离群点得分由到它的k-最近邻的距离给定。离群点得分对k的取值高度敏感。如果k太小，则少量的邻近离群点可能导致离群点较少；如果K太大，则点数少于k的簇中所有的对象可能都成了离群点，导致离群点过多。为了使该方案对于k的选取更具有鲁棒性，可以使用k个最近邻的平均距离。

从基于密度的观点来说，离群点是在低密度区域中的对象。一个对象的离群点得分是该对象周围密度的逆。基于密度的离群点检测与基于邻近度的离群点检测密切相关，因为密度通常用邻近度定义。

定义密度
一种常用的定义密度的方法是，定义密度为到k个最近邻的平均距离的倒数 。如果该距离小，则密度高，反之亦然。

另一种密度定义是使用DBSCAN聚类算法使用的密度定义，即一个对象周围的密度等于该对象指定距离d内对象的个数。 需要小心的选择d，如果d太小，则许多正常点可能具有低密度，从而离群点较多。如果d太大，则许多离群点可能具有与正常点类似的密度（和离群点得分）无法区分。使用任何密度定义检测离群点具有与基于邻近度的离群点方案类似的特点和局限性。特殊地，当数据包含不同密度的区域时，它们不能正确的识别离群点。

定义相对密度
为了正确的识别这种数据集中的离群点，我们需要与对象邻域相关的密度概念，也就是定义相对密度。常见的有两种方法：
（1）使用基于SNN密度的聚类算法使用的方法；
（2）用点x的密度与它的最近邻y的平均密度之比作为相对密度。使用相对密度的离群点检测（局部离群点要素LOF技术）:

一种利用聚类检测离群点的方法是丢弃远离其他簇的小簇。这个方法可以和其他任何聚类技术一起使用，但是需要最小簇大小和小簇与其他簇之间距离的阈值。这种方案对簇个数的选择高度敏感。使用这个方案很难将离群点得分附加到对象上。

一种更系统的方法，首先聚类所有的点，对某个待测点评估它属于某一簇的程度。（基于原型的聚类可用离中心点的距离来评估，对具有目标函数（例如kmeans法时的簇的误差平方和）的聚类技术，该得分反映删除对象后目标函数的改进），如果删去此点能显着地改善此项目标函数，则可以将该点定位为孤立点。

基于聚类的离群点：一个对象是基于聚类的离群点，如果该对象不强属于任何簇。离群点对初始聚类的影响：如果通过聚类检测离群点，则由于离群点影响聚类，存在一个问题：结构是否有效。为了处理该问题，可以使用如下方法：

对象是否被认为是离群点可能依赖于簇的个数（如k很大时的噪声簇）。该问题也没有简单的答案。一种策略是对于不同的簇个数重复该分析。另一种方法是找出大量小簇，其想法是（1）较小的簇倾向于更加凝聚，（2）如果存在大量小簇时一个对象是离群点，则它多半是一个真正的离群点。不利的一面是一组离群点可能形成小簇而逃避检测。

根据已有训练集检测新样本是否异常

异常检测根据原始数据集的不同可分为两类：
novelty detection: 训练集中没有异常样本
outlier detection: 训练集中有异常样本

异常样本：
数量少，比较分散

novelty detection和outlier detection的区别：

Sklearn异常检测模型一览

5.1 奇异点检测（Novelty Detection）
奇异点检测，就是判断待测样本到底是不是在原来数据的概率分布内。概率学上认为，所有的数据都有它的隐藏的分布模式，这种分布模式可以由概率模型来具象化。

5.1 离群点检测（Outlier Detection）
不同与奇异点检测是，现在我们没有一个干净的训练集（训练集中也有噪声样本）。下面介绍的三种离群点检测算法其实也都可以用于奇异点检测。

如果我们认为，可达密度小的目标样本点就是异常点，这样未尝不可。但是，LOF算法更进一步。

LOF可以用来判断经纬度的异常。

使用python进行异常值(outlier)检测实战:KMeans + PCA + IsolationForest + SVM + EllipticEnvelope

文章引用：数据挖掘：数据清洗——异常值处理

导航:首页 > 源码编译 > 箱线图算法

箱线图算法

与箱线图算法相关的资料