savedown
第2楼2011/10/19
说到多变量,就先从单变量说起。
所谓单变量,就是指响应值只有一个因素(变量),例如称重,有多大的质量,在台称上就有多少读数,如果不考虑基础读数,只要有一次确定的对应关系测量,就能得到因变量和自变量的确定关系,即:
y=ax, 只要知道一个x和y的测量对应,就能确定a;
如果考虑基础读数,即:
y=ax+b, 只要知道二个x和y的测量对应,就能确定a和b;
如果没有随机性的影响,也就是噪声或随机误差,无论测量多少次,得到的结果都是一样的,其实这就是初中的一元(或二元)一次方程确定求解问题。
如果存在随机性,那么每次测量的结果都不一样,但是随着测量次数增多,测量结果就趋向确定,通常获取这种趋向于确定结果的方法就是 最小二乘,注意没有“偏”字。
savedown
第4楼2011/10/19
简单的提过单变量的概念,接着就开始聊多变量。
近红外这一段和紫外和通常的红外不同,出峰的特征性不强,如果采用特征峰方法缺乏操作的普遍性。
特征峰方法,实际上是单变量思维,在特征峰位置,峰响应远强于其他响应,可以把其他响应当做干扰和基底,认为峰位置的响应值基本上由该物质引起,也就是该物质量是起作用的单变量。
所以在原来的分析思维中,近红外就是很鸡肋的东西,加上设备也不便宜,基本上处于丑小鸭和灰姑娘的地位。
直到多元校正技术发展后,解决了多变量的求解和描述问题,近红外才得以登堂入室,这几年在非接触测量等方面表现不俗,大家才发现灰姑娘穿上水晶鞋以后的魅力,所以近红外的水晶鞋就是多变量分析(多元校正)。
想到哪写到哪,谢谢斑竹的鼓励。
savedown
第5楼2011/10/20
分析的问题不外定性定量两类,可以归结为体系的确定描述问题。
“单变量”需要一个“确定的对应”来描述,那么“多变量”就需要多个“确定的对应”来描述。
体系是否能确定描述问题,大家可以回忆一下物化里的相律,不知道是否还有印象?
分析问题通常是恒温、恒压、均相、稳态下完成,那么,自由度就只与体系的独立组成成分有关,简单地说就是:几个组分组成就需要几个“确定的对应”关系,这里涉及到几个概念:自由度、组分数、独立的变量,而多元分析通常都是以矩阵表达,又引出一个“秩”的概念,到了化学计量学,为了以示专业性,强调为“化学秩”。
说了这么多,头有点晕?
其实也不要过于细究,归结到“多少组数据能够完成建模”就行了。
savedown
第8楼2011/10/28
这两天事情多一点,没往下说,继续。
前面谈到“建模所需样本”问题,这是多元校正的一个基本问题。
一元校正需要一个样本,那么,n元就需要n个样本就够了?
回答正确!
如果满足了前提假设:没有噪声。的确是这样。
但是如果噪声存在,要得到确定解,就需要无穷个样本!
这也太坑爹了 :(
但实际上,我们对不确定性的容忍不一样,样本的数量也可以不同,高信噪比的测定,可以需要较少的样本数。
从噪声的角度来说,样本数量越多,所建立的多元校正模型确定性越高。
除了噪声,还有别的因素吗?有的。
谈到多元校正,一个默认的前提是“线性描述”。
而实际上,线性只是梦中才会出现好事,俗称为“理想”。
偏离线性的体系,能用线性描述吗?如果能够凑合,那就能!
~~~~~~把不理想的日子过得理想了,那就是幸福~~~~~~~
回忆一下高数里面有个人告诉我们:
函数可以展开为1次+2次+3次+。。。。。的多项式的和
那个人叫泰勒,他展开了非线性的函数,从此任何非线性的函数都可以线性函数来凑合表达,即:一定的值域内,函数可以近似表达为一次函数和高价无穷小的和。
~~~~~这里又是一个人生的启迪:理想有多远,你就滚多远~~~~ :P
根据线性展开近似,在值域范围内可以近似用线性表达。朗伯和比尔一起告诉了我们这个分析化学的规律,然后Kubelka和Munk把这个道理在漫反射测量中又讲了一遍。
对于更广的值域怎么办?可以分段,一元的时候就是这么干的,不同的回归方程对应不同的浓度。
对于多元,可以采用比实际存在的体系组分数更多的变量来凑合。既然是凑合的,就存在了风险。
风险就是如果建模的样本和被预测的样本在含量上存在差异,这种差异如果不在建模范围内,那么预测的准确性就不可控了。
为了增强模型可控的势力范围,一种粗暴的办法是尽可能的增加建模样本,把范围尽可能广,这直接导致了人们对近红外建模的恐惧感。
savedown
第10楼2011/10/30
说了很多,似乎还没进入正题? :)
其实已经进入多元校正最关键的问题之一了,就是建模样本如何选择的问题。
前文说到建模样本的量要求很大,这是近红外让人很恼的事情。
但是如果样本的质量高,每个样本点都是有效的话,其实样本的数量远没有想象的那么大。
这里就需要把握几个原则。
一是样本的差异性。
作为一元的单变量,也就是平常的标准曲线法,这是不用强调的。因为单变量,自己和自己不用差异,每次测量的差异不同是由于不确定性引起的,所以测量次数越多,不确定性影响就越小了。
而作为多元就不同了,举个例子:一斤柿子和一斤梨花了5块钱,两斤柿子和两斤梨花了10块钱,您能告诉我柿子和梨各多少钱一斤吗?
显然不能,因为这是一个相关采样,这样的样本再多也没有用。
必须增加一个一斤柿子和两斤梨花了8块钱的样本,才能知道柿子和梨多少钱。
道理简单,可是做起来的时候就未必想得到了。
注意:取样本的时候,样本中各组分的组成配比差异分布越广泛越好。