2.4光谱降维方法
在近红外漫反射光谱与吸收光谱中均存在组分谱带较宽,彼此重叠严重的问题,因此采用化学计量学方法对光谱进行降维,对于准确提取光谱信息具有重要意义[44-47]。目前,在近红外光谱分析中常用的化学计量方法有多元线性回归(MLR)、主成分分析(PCA)、偏最小二乘(PLS)、奇异值分解(SVD)、遗传算法(GA)等方法。
1.多元线性回归(MLR)
多元线性回归以整个光谱矩阵建立模型,在多组分体系校正过程中测定结果良好。但由于维数有所限制、矩阵中信息与被测性质不具相关性,模型的预测能力将受到一定影响。
2.主成分分析(PCA)
主成分分析法将原来众多具有一定相关性的自变量,通过线性组合的方式重新组合成一组较少的线性无关的综合指标来代替原来的指标,新变量能反映原变量的绝大部分信息[48]。其计算方法如下:
图2.4-1主成分分析法降维示意图
Fig 2.4-1 the process of PCA algorithm
Step1:构建样本大小为mn个数据,记为。
写出训练样本矩阵
(2-1)
Step2:构建样本大小为的协方差矩阵,记为。其中表示两个维度和之间的协方差。
(2-2)
,分别代表样本矩阵D中维度为,数据的均值。
(2-3)
(2-4)
Step3:求出协方差矩阵的特征值及对应的特征向量。将特征值按照大小依次排列,特征值越大,重要级别越高。对于特征值小的,在误差允许范围内可以忽略不计[49]。
Step4:取前k行组成矩阵P,记为模式矩阵E。降维后可得矩阵。其中是模式矩阵E的转置,为中心化矩阵A的转置。降维后的F矩阵在一定程度上降低了复杂度,保留的大部分细节信息,为判别吸收峰提供了有效的依据。
3. 偏最小二乘法(PLS)
偏最小二乘作法为常见的化学计量标定方法,将X、Y矩阵的分解及回归并做一步,并将Y矩阵信息应用于X矩阵的分解,使得到的X的主成分直接被Y矩阵关联,利用全谱数据,利于对复杂体系进行分析。具体方法为:
Step1:建立模型:,其中,T与U为对应得分矩阵;P与Q对应载荷矩阵;E与F为对应PLS残差矩阵。
Step2:将T与U做线性回归,从而解得B。
Step3:根据P求得光谱矩阵得分T’与浓度矩阵预测值Y’,其中,,从而完成预测。