第2楼2004/12/30
1. 复杂体系近红外光谱分析的核心技术是:压缩、复原与关联;
近红外光谱分析是从复杂的背景下提取弱信息。这种分析必须用足够大的样品集,才能采集样品的复杂背景信息。例如为了建立中国小麦等作物的数学模型,原则上应当取得国内不同地区,数以万计不同品种达到104-106左右样品的作物光谱,建立中国作物样品光谱库,以此为基础建立数学模型。另外,近红外光谱分析必须用足够大的光谱数据点才能区别光谱中重叠的信息,例如:每个样品的傅立叶光谱通常有103个数据点。两个数据集的相乘使近红外光谱分析所采集的信息是海量的信息,达到107-109数据规模的矩阵。
近红外光谱分析的本质是海量数据的采集与处理,处理海量数据必先对数据加以压缩。压缩包括对样品集(样品数)的压缩和光谱数据点集的压缩两方面。压缩的算法主要有主成分分解、傅立叶变换、小波变换等
近红外光谱有效信息的强度较低,属于弱信号。所以处理弱信号首先要通过数学处理,降低叠加在弱信号上的噪声与系统干扰(误差),增强有效信息的相对强度,以恢复弱信号的原有特征,这就是弱信号的恢复。近红外光谱分析需要用两种校正技术(消除或降低信号中系统误差和随机误差的干扰)来处理近红外光谱的弱信号,包括平均、求导、矢量归一化、傅立叶变换、小波变换等。
弱信号恢复与信号压缩是从两个不同的层面来提高近红外光谱分析信号的有效信息率,都属于近红外光谱分析海量数据的前处理。
经过前处理的光谱数据通过算法与待测量之间进行数学关联,建立数学。图1中给出了三种核心技术(在图中的圆框内),他们之间的关系,以及为什么要采用这些技术的原因。
第3楼2004/12/30
2. 压缩、复原的原则是少而精及其理论依据,
近红外光谱分析运用三项核心技术来优化建模数据与算法参数的原则是用最少的光谱数据,最大限度包含分析的有效信息;简称“少而精”的原则。
图2表示数学模型引入的光谱数据 N 与数学模型预测误差 E 间的关系。建模过程应用的光谱数据越多,得到的有效信息就可能越多,这就使模型在不同时间与空间运用的稳定性得以提高,同时预测误差E 减少、预测准确度也得以提高,见图中的曲线A。另一方面,因为每个光谱数据除了包含有效信息以外还包含测量误差等不确定的、难以校正的、干扰测定的无效信息或称干扰信息,因此建模过程中每引入一个光谱数据的同时会带来影响提取有效信息的干扰信息,使模型的预测误差 E 增加、测定准确度下降,如图2中的曲线B。曲线C是图中A、B的叠加。图中A、B两曲线的交点附近是建模所用光谱数据的最佳点。优化建模数据的目标就是确定或接近该最佳点,使数学模型的预测效果达到或接近最佳值。优秀的软件应能辅助确定数学模型的最佳参数。
第5楼2004/12/30
多元校正中的内校正和外校正及其在建模过程中的应用
近红外光谱分析多元校正法建立数学模型的过程中通过选取建摸样品集,使其包含一定范围的某种变动背景,由此建立的数学模型在一定范围内对该变动的背景具有自我校正(或自动校正、内部校正,即:所建模型能自动校正背景变动对模型预测结果的影响)的作用,简称建模过程的自校正或内校正。所谓自校正是指当建摸样品集中包含一定范围的某种变动背景时,近红外分析在运用多样校正建摸算法,可以通过对多元参数的拟合,自动产生对变动背景在相应范围内具有抗干扰作用的数学模型。数学模型对变动背景的自校正作用是多元校正区别于一元校正的一种重要特点,这种作用具有相当的广泛性。利用建模过程的自校正不但可以建立对背景温度或水份的变化有一定自动校正的模型,还可对样品的密度、厚度等样品参数的变动以及采样积分时间等测量参数的变动等均可以在一定范围的自校正。对于需要用硬件或软件另行直接校正变动背景的方法称为外校正。
建模过程的自校正作用的方式与强度主要决定于建摸样品集包含变动背景的性质与变动范围的大小,也决定于建模的算法;相反,外校正作用的方式需要由近红外光谱分析技术人员来掌握。
数学模型对变动背景具有自校正作用的原因可能是:建模样品背景或状态一定范围的变动,也就是建模样品具有代表性,将影响或改变建模样品主成分空间的范围,从而影响或改变模型相应的适配空间,进而对提高模型的稳定性产生一定作用。
在近红外光谱分析技术发展过程的早期,十分强调建模样品资源背景条件以及测量条件的严格一致性。但随着多元校正方法的改进,现代近红外光谱分析不再过分强调这些条件的严格一致性,而更加注重改进建模的算法;另一方面对于是像样品含水量等背景因素,反而要求其有一定的离散,以便通过建模的自动校正作用来减少这些背景的影响。但是对于校正某些具体的变动背景是用自校正还是外校正,以及对模型自校正作用的范围等问题,目前主要依靠经验或实际检验、测试与比较。
第6楼2004/12/30
1. 数学模型的稳定性(包括动态适应性)、测定结果的准确度以及数学模型的转移是近红外光谱分析的重要应用问题(略);
2. 复杂体系分析中近红外光谱光谱及数学模型的统计波动性以及由此带来的建模过程中的“一对多”、“多中选优”与“全程优化”等概念;
与常规的光谱分析方法不同,近红外分析的光谱和数学模型都具有统计性质,近红外光谱分析的样品集与光谱集之间不是唯一对应的,而且光谱集和数学模型之间也不是唯一对应的。同一批样品由于扫描条件的不同或随机变动的因素,扫描的光谱集有所不同;即使同一批光谱由于建模算法的不同或优化方法的不同,所建模型的结构也有所不同(如图4 有m个模型集),由此产生不同的预测效果。这就是近红外光谱分析中的 “一对多” 关系。“一对多”是近红外光谱和数学模型统计性质的一种表现。
由于存在“一对多”关系,近红外光谱分析在建模的过程中必须从多种光谱、多种可能的建模参数或多种试建的模型中选择相应的最优条件,才能建成优秀的数学模型,这个优化的过程称为“多中选优”,选择的过程要靠一定的经验和软件的帮助。优秀的数学模型不是一成不变的,需要在分析的过程中针对背景的变化反复优化,实现“全程优化”。
本文的详细论述及文献参见中国轻工业出版社出版的《近红外光谱分析的基础与应用》