calfstone
第1楼2008/11/24
关于方程选取的问题,我们可以把问题说宽点,这样更加有助于理解。
一、模型的问题。建立数学模型是基于现有的实验数据,从建立数学关系的角度讲,我们总是先选用(假定)一个数学方程来描述现有数据的关系,然后检验其显著性,这个显著性的意义是你所建立方程能够解释现有数据的方差,解释了的部分占总方差的比例就是决定系数(其方根为相关系数),剩下没有解释了的为残差。既然是假定肯定有很多的选择,这些可以选择的数学方程很多,常见的有一次,二次曲线,一次曲线中又分为y=a+bx或者y=bx(前面是常规标准曲线,后面有人称为强制过零)。也许在真实情况下两种方式给出的b差别不是很大,但你的统计支撑就不一样了。这里需要指出的是在常规标准曲线中抛弃a来推算浓度,实际就等于你做了工作(拟合曲线),又放弃你做的工作。我们先不评价你放弃a带来的差别有多大,但你实际就放弃了统计学的支撑。建立数学模型需要一定的统计判别标准,如最小二乘法。一般不建议用相关系数(决定系数)的绝对大小来判断直线拟合的好坏,而是通过对方程剩余残差的检验来判断。
二、参数多少的问题。实际工作中,很多人都发现模型的参数越多,方程的拟合效果越好。y=bx+a就比y=bx的参数多一个,而二次曲线有三个系数y=a+bx+cx^2。统计学上有一种step-wise的拟合策略,就是增加/减少模型的参数,在增加/去除之后来判断这个参数的增加或减少对模型的显著性有无影响(两种模型剩余残差的F检验)。然后用参数最少的模型来描述关系。结合楼主的问题,Y=a+bX是最简单的,所以我们经常用它作为关系的假设(况且我们还有Lamb-Beer定律的支撑)如果你检验了a是不显著的参数,你还可以用Y=bX再建立模型,如果它的残差与前面Y=a+bX残差F检验没有显著性,你肯定应该用Y=bX。如果你在Y=a+bX建立方程时,相关系数不理想,你就应该考虑用二次曲线来拟合。统计学上总是用“简洁”原则来判断模型的好坏,少的参数建立的模型比多参数建立的模型要好。这样的原理在因子分析中经常使用。所以能用一次方程的地方(当然要拟合良好)一般不推荐用二次方程;能用强制过零的地方不用常规的一次方程。如果你建立了多余参数的模型,在推断样品含量时,这个模型会带来更大的不确定度。
总结来说:
1、选取什么样的数学模型,一次也好,二次也好,必须用统计方法加以判断,如果两个模型都在统计学上是显著的,越简洁的模型越好。
2、统计学上用残差的F检验来判断增加或减少参数对模型显著性的影响,如偏最小二乘分析的因子挑选就是这样的原理