回归分析中异常值的诊断方法及应用

2023-07-25 12:03:55

论文总字数：12842字

摘要

本文就样本中的异常数据提出了诊断方法和处理方法，并结合实例说明了简单回归中上述方法的具体应用．

关键词： 异常值，回归分析，诊断，残差，虚拟变量

Abstract：This paper puts forward the diagnosis method and processing method for the outliers in the sample, and illustrates the concrete application of the method in simple regression.

Keywords：outliers, regress analysis, application, diagnosis, residual, dummy variables

目录

1 引言……………………………………………………………… 4

2 异常值的概念 …………………………………………………………… 4

3 异常值的诊断方法 ……………………………………………… 5

3.1 F分布检验法 ………………………………………………………5

3.2 残差及残差检验异常值 ………………………………………………7

4 异常值处理的两种方法 ………………………………………………… 7

4.1采用虚拟变量消除差异值的方法 ……………………………………7

4.2剔除异常值的方法 ……………………………………………… 8

5 实例分析 ……………………………………………………………… 9

5.1 实例一 ……………………………………………………………… 9

5.2 实例二 ……………………………………………………………… 12

6 结论………………………………………………………………… 16

参考文献 ……………………………………………………………………17

致谢 …………………………………………………………………………18

附录1：spss处理实例1数据 …………………………………………19

附录2：spss处理实例2数据 …………………………………………21

1 引言

对调查得到的大量原始数据进行加工处理，提取其中有用的信息，即统计整理，是进一步进行统计分析的前提．但是通常的统计整理方法往往都对样本数据有一个前提假设，即样本数据是来自同一个总体，而这个假设有时却不能成立．原因一是由客观因素造成的，如总体条件的突然变化或人们未知的某个因素的突然出现等等；二是由主观方面的因素造成的，即人为的差错如调查人员读错或抄错数据，不小心把另一些不同条件下的样本数据混杂进来．当样本中的个别数据明显的偏离样本中其余数据时，这些数据可能是来自不同的总体，我们称这样的数据为异常数据．若对混有异常数据的样本按常规进行统计整理、分析和推断，往往会得出不符合实际的结论．本文就样本中的异常数据提出了诊断方法和处理方法，并结合实例说明了简单回归中上述方法的具体应用．

2 异常值的概念

所谓异常值就是在所获统计数据中相对误差较大的观察数据，也称差异值．如果我们狭义地定义异常值的话就是一批数据中有部分数据与其余数据相比明显不一致的数据，也称离群值．

社会经济统计中一切失实数据统称为异常值．由于人为或随机因素的影响，失实的数据随时都有可能出现，因而统计数据中的任何一个都有可能成为异常值，而狭义界定的异常值是指离群值，如果把统计数据按由小到大排列，若有异常值，它必位于其数据的两端，左端称为异常小值，右端的称为异常大值．

残差：考虑线性回归模型

，，

其中，，，，，分量形式为

　　，，

定义为残差向量，其中称为拟合值向量，为在模型下的最小二乘估计．如果用表示的个行向量，则称

，

为第次试验或观测的残差．对简单回归，，，．则，，其中.

于是，异常值就是在回归分析中，一组数据如果它的残差较其它组数据的残差大的多，则称此数据为异常值^[1]．

异常值的出现有主客观的原因．主观上抽样调查技术有问题，疏忽大意记错，或人为的虚报，谎报数据等都可能导致异常数据，这直接影响了统计数据的质量；客观上某些样品由于特定原因在某些变量上的确表现突出，明显超出平均水平，这也可能产生异常值．

异常值的存在必将导致相应统计分析误差增大，会对分析结果(平均值与标准差)产生重要影响，会降低测量的精度．如果不预先处理它们，用通常的统计整理方法所得出的结论可靠性差．而异常值的诊断与处理是保证原始数据可靠性，平均值与标准差计算准确性的前提．

3异常值的诊断方法

当我们在讨论异常值诊断问题时，我们通常要假设所得样本观测值在某中意义下遵从一定的分布规律．拿到一批数据，若能从其实际背景中明确看出它服从某中分布形式时，一般的做法是在这种分布假设下，导出能较好反映异常值与正常值差异的统计量，在没有异常值的原假设下作假设检验．

以下给出两种检验方法.

3.1 F分布检验法

学生化残差：考虑线性回归模型，记，称为拟合值向量，称其第个分量为第个拟合值，则

这里．文献中通常称为帽子矩阵．前面已经定义了

, ，

为第次试验或观测的残差．将其标准化为，再用代替，得到所谓学生化残差

， ,

这里为的第个对角元，.

把正态线性回归模型改写成分量形式

，，，

这里，相互独立．如果第组数据是一个异常点，那么它的残差就很大．它的残差之所以很大是因为它的均值发生了非随机性漂移,从而．这产生了一个新的模型

记，将模型改写成矩阵的形式

， ,　　　　　　　

模型和称为均值漂移线性回归模型．要判定不是异常点，等价于检验假设.

定理对于均值漂移线性回归模型，如果假设成立，则

据此，我们得到如下检验：对给定的，若

则判定第组数据为异常点．当然，这种检验会犯“判无为有”的错误，也就是可能不是异常点，而被误判为异常点．但我们犯这种错误的概率只有，事先我们可以把它控制的很小．

显然，根据分布与分布的关系，我们也可以用检验法完成上面的检验．若定义

对给定的，当

剩余内容已隐藏，请支付后下载全文，论文总字数：12842字

您需要先支付 80元 才能查看全部内容！立即支付

注册

找回密码