异常值检测算法--箱线图四分位检测异常值,如何判别测量数据中是否有异常值?

异常值检测算法--箱线图四分位检测异常值

1、异常值检测算法--箱线图四分位检测异常值

首先,给大家讲下什么叫四分位数。顾名思义,就是把一堆数据排序会分成四份,找出其中的那三个点。中间那个叫中位数,下面那个叫下四分位数据,上面那个叫上四分位数。如下图: 中间的两个数是12和14,平均数13即为中位数。14以上的数字,最中间的数字是20即为上四分位数。12以下中间的数字是4即为下四分位数。 当然,也是更严谨的计算方法。对样本数据或者全部数据线性回归,找出概率密度函数。反函数y=0.5对应的x值为中位数,y=0.25对应的x值为下四分位数,y=0.75对应的x值为上四分位数 。

如何判别测量数据中是否有异常值?

2、如何判别测量数据中是否有异常值?

一般异常值的检测方法有基于统计的方法,基于聚类的方法,以及一些专门检测异常值的方法等,下面对这些方法进行相关的介绍。

1、 简单统计 如果使用pandas,我们可以直接使用describe()来观察数据的统计性描述(只是粗略的观察一些统计量),不过统计数据为连续型的,如下: df.describe() 或者简单使用散点图也能很清晰的观察到异常值的存在。如下所示:

2、 3∂原则 这个原则有个条件:数据需要服从正态分布。在3∂原则下,异常值如超过3倍标准差,那么可以将其视为异常值。正负3&#。

相似内容
更多>