我们做实验室往往会有很多次的重复性试验,那么多次的实验,就不能保证所有的数据都是正常值,再排除掉仪器的跳动或者某些已知的异常值,隐藏在我们数据中的异常值该如何剔除呢?常用异常值的剔除方法有三种:拉依达准则、格拉布斯准则、狄克逊准则。三种方法各有使用的局限性和优越性,我们分别来说。
拉依达准则:要求测量次数n≥10,计算方法:计算出十次测量值的标准偏差,某个异常值与平均值之差的绝对值≥3s,则判定该值为异常值。注:GB/T4883,已不采用该方法。
格拉布斯准则:使用比较广泛,计算简单。使用范围:测量次数大于3次小于50次,即3<n<50。局限性:只能剔除一个异常值。计算方法:最大残差减去平均值的绝对值/标准偏差≥G(a,n),关于G(a,n)的数值见下表:
狄克逊准则:不同次数的计算方式不太相同,计算方法可自行搜索,如有不同的地方,可在公众号留言。优点是可以多次剔除异常值,缺点也很明显。每次只能剔除一个异常值。想要剔除多个异常值,需要重新排序后,再计算,计算量比较大。
三种方法各有优缺点,在我们实际工作过程中,可以三种方法相辅相成。假设用格拉布斯准则判断某个值为异常值,用狄克逊准则却判断为不是异常值,该值最好按照非异常值处理。通过上述方法,你学会判断异常值了吗?
异常值的剔除方法远远不止在三种方式,剔除方法有多种多样,但本着科学严谨的态度,对于异常值的剔除,不能靠自己的主观意识去剔除。