仪器信息网APP

选仪器、听讲座、看资讯

立即体验

当前位置：仪器社区 >环境监测 > 水质检测 > 帖子详情

试用SPSS对COD和BOD进行相关分析

huacai

2020/09/17

私聊

水质检测

琢磨数据分析有一阵了，可总觉无从下手。最近发现一款统计软件简单易上手，所以试着从最简单的一元回归分析小试一下。为记住一些对应用语，主界面用英文，结果输出用中文。

用SPSS25.0版选择对某水体的COD和BOD进行相关分析。因为分析BOD需耗时5日，所以这里确定以COD为自变量，BOD为因变量，建立二者关系模型用以根据COD的值来预测BOD值，快速确定稀释倍数。

一、在SPSS界面进行如下相关设置

1. 变量设置

依次Analyze分析-Regression回归-Linear线性，出现图1窗口

图1

将COD放入independent自变量框，BOD放入Dependent因变量框，Method中默认的策略是Enter，表示所选变量强行进入回归方程。将序号填入Case Labels个案标签。

2. 统计量设置

点击Statistics统计按钮，出现下图图2。

图2

SPSS默认勾选的Estimates估计值和Model fit模型拟合。勾选Confidence intervals置信区间为95%，勾选Descriptives描述性内容。在Residuals残差框中勾选Durbin-Waston检验残差是否自相关。在2附近表示各自独立。勾选Casewise diagnostics个案诊断，对残差>=3倍标准差的观测值视为异常值。

3. 图形设置

点击plots，在出现的图3窗口选择要绘制的回归分析诊断或预测图。指定ZPRED为X轴变量，指定ZRESID为y轴变量，是以大于3倍的标准化残差绝对值的观测值作为异常值。在标准化残差图框中勾选直方图将输出标准化残差的直方图，并带有标准正态曲线。残差是服从均值为0的正态分布。

图3

4. 保存设置

点击save保存，出现图4窗口。此图中Prediction values预测值框中Unstandardized未标准化是回归模型中对因变量BOD的预测值。Standardized标准化是将预测值进行标准化处理即(Y-Y均)/S。Adjusted是当某条自变量记录没参与回归方程系数估计时，所得的回归方程对其对应的预测值。S.E. of Mean predictions是预测值的均值标准误差。

Distances框下各参数意义：Mahalanobis马氏距离：自变量与其均值的距离。此值过大表明自变量取值有异常。Cook库克距离表示把一条记录从计算回归系数的样本中去除时所引起的残差变化大小。此值越大表明此记录回归系数的影响越大。Leverage values杠杆值用以测量单个观测值对拟合效果的影响程度。取值范围是0~n/(n-1)。取0表示此单个观测值对拟合无影响。

Prediction intervals预测区间框用以选择预测值的均值和单个预测值的上下置信限，默认为95%。

Residuals框中Unstandardized未标准化是观测值与预测值之差。Standardized标准化是令残差均值为0，标准差为1。Studentized学生化是用残差除以残差标准差的估计值。Delete删除表示把某条记录从样本中去除时回归所得当前记录的残差，即观测值-调整预测值。学生化删除：用剔除残差除以单个记录的标准误差。学生化与学生化剔除残差间的不同能反映补剔除的观测值在预测自身时的作用大小。

Influence Statistics影响统计框中的各子项是把记录从回归样本中剔除后计算得到的一些统计量。DfBeta剔除某条记录后回归系数的改变（包括常项）。Standardized DfBeta剔除某条记录后回归系数的改变量标准化后的值（包括常项）。当它>2/SQRT(N)时，它对回归系数有较大影响。N为自变量的记录条数。DfFit剔除某条记录后预测值的改变量。Standardized DfFit剔除某条记录后预测值的改变量标准化后的值。当它>2/SQRT(p/N)时，它对回归系数有较大影响。p为模型中的参数个数。

此界面的其它项与一元回归分析无关，就不赘述。

图4

5. 选项设置

option这个界面设置逐步回归的参数和缺失值的处理方式。本文不涉及。

2、分析结果及解读

1. 描述性的统计量，包括各变量平均数、标准偏差、有效个案数。

表1

描述统计
	平均值	标准偏差	个案数
BOD	25.0195	7.87848	20
COD	57.0935	13.75322	20

2. 相关性表列出相关系数矩阵及其单侧显著性水平。COD与BOD的相关系数为0.979。显著性为0.000，也说明二者显著相关。

表2

相关性
		BOD	COD
皮尔逊相关性	BOD	1.000	.979
皮尔逊相关性	COD	.979	1.000
显著性（单尾）	BOD	.	.000
显著性（单尾）	COD	.000	.
个案数	BOD	20	20
个案数	COD	20	20

3.模型摘要

表中显示了输入的变量COD，有一个模型，无剔除的变量。表4是模型摘要表，提供了模型拟合情况。表中可看出R2为0.958，调整后为0.956变化极微，说明COD自变量对模型的贡献较大。显著性F的变化量为0.000，说明COD和BOD间存在显著相关。DW值=2.061，接近于2，说明回归分析残差不存在自相关，也就是相互独立的。

表3

输入/除去的变量a
模型	输入的变量	除去的变量	方法
1	CODb	.	输入
a. 因变量：BOD
b. 已输入所请求的所有变量。

表4

模型摘要b
模型	R	R 方	调整后 R 方	标准估算的错误	德宾-沃森
1	.979a	.958	.956	1.65378	2.061
a. 预测变量：(常量), COD
b. 因变量：BOD

4.ANOVA方差分析表解读

观测值COD的总离差平方和为1179.339，其可解释的变差为1130.109，抽样误差引起的变差为49.230。二者方差分别为1130.109和2.735，相除得F统计量的观测值=413.203，对应的概率P值=0小于显著水平α（一般取α=0.05）也表明COD和BOD有显著相关。

表5

ANOVAa
模型		平方和	自由度	均方	F	显著性
1	回归	1130.109	1	1130.109	413.203	.000b
	残差	49.230	18	2.735
	总计	1179.339	19
a. 因变量：BOD
b. 预测变量：(常量), COD

5.回归系数的估计值表

根据此表给出的模型建立的回归方程为：BOD=0.561*COD-6.996。在95%的置信概率下斜率的范围在0.503~0.619之间，常数项范围在-10~-3.597之间。

表6

系数a
模型		未标准化系数		标准化系数	t	显著性	B 的 95.0% 置信区间
模型		B	标准错误	Beta	t	下限	上限
1	(常量)	-6.996	1.618		-4.325	.000	-10.395	-3.597
1	COD	.561	.028	.979	20.327	.000	.503	.619
a. 因变量：BOD

6. 残差分析

残差分析是指由回归方程计算所得的预测值与实际样本值之间的差距。这是回归方程的重要部分。如果回归方程能反映自变量与因变量的特征和变化规律，则残差不应有明显的规律性和趋势性。

从表7 的残差统计表及图5的直方图和图6的正态概率图可看出残差基本上服从正态分布。图7的残差散点图中也可看出回归标准化残差都在±3以内，无异常值，也说明残差是相互独立的。

表7

残差统计a
	最小值	最大值	平均值	标准偏差	个案数
预测值	12.1929	43.5507	25.0195	7.71229	20
标准预测值	-1.663	2.403	.000	1.000	20
预测值的标准误差	.370	.984	.500	.156	20
调整后预测值	12.1814	42.7406	24.9627	7.64728	20
残差	-3.49569	3.76431	.00000	1.60967	20
标准残差	-2.114	2.276	.000	.973	20
学生化残差	-2.187	2.355	.016	1.018	20
剔除残差	-3.74192	4.02947	.05678	1.76890	20
学生化剔除残差	-2.480	2.751	.010	1.119	20
马氏距离	.004	5.774	.950	1.378	20
库克距离	.000	.339	.051	.088	20
居中杠杆值	.000	.304	.050	.073	20
a. 因变量：BOD

图5

图6

图7

经检验，建立的COD和BOD间的关系模型是成立且可信的。可以根据COD的值来预测这个水体的BOD值。