颗粒水分近红外模型建立及验证
偏最小二乘法
PLS算法原理
PLS方法在对数据进行标准化后需要用主成分分析(Principal Component Analysis,PCA)法来去除数据噪声。PCA通过计算数据矩阵的协方差矩阵得到特征向量,选择特征值(方差)最大的k个特征向量组成矩阵,从而将n维数据降低到k维,即有k个主成分。以二维矩阵为例,每个观测值由两个维度表示,理论认为,方差较大的方向是有效信息,方差较小的方向是噪声数据。选取方差较大的方向u1作为主成分方向,与u1呈正交方向的方差较小的u2作为副主成分方向。u1方向上的投影具有大部分的有效信息,u2方向上的投影可以认为是噪声数据,这样就可以把二维数据转换成一维数据。其示意图如图所示。
图 PCA二维数据分布图
在建模过程中,光谱数据X是90×125,水分数据Y只有一维,即90×1。将X和Y分解成特征向量的形式使它们的主成分相关程度最大,其模型可以表示为:
式中,Wx和Wy分别对应于X和Y的得分矩阵;P和Q分别对应于X和Y的载荷矩阵;Ex和Ey分别对应于X和Y的拟合残差矩阵。
通过式(3-13)和式(3-14),可以求得Wx和Wy,建立两者的回归模型:
式中,B为回归系数矩阵,,Er为随机误差矩阵。因此,
x为待预测样本的光谱数据,ypre为预测的水分含量。
PLS模型训练及预测结果
首先将数据集按照7:3的比例分成训练集和预测集,再将训练集数据随机取出30%的数据作为验证集。根据3.1和3.2预处理和波段选择的结果,选择Normalization+SG作为光谱的预处理方法,用随机森林以特征重要性0.0060作为最低界限进行波段选择,整个PLS建模阶段的流程示意图如下图所示。
图 PLS建模过程示意图
对原始光谱进行Normalization和SG平滑处理并通过随机森林对处理过后的光谱进行波段选择,得到的光谱图像如下图所示,绿色方格表示选择的用来建模的波段。
图 Normalization+SG+RF处理后的光谱
PLS需要确定最佳主成分数目,主成分数目过少,光谱中一些有用的数据不能充分发挥作用,使得模型准确率下降,模型会处于欠拟合状态。主成分数目过多,光谱中一些无用甚至起相反作用的噪声数据不能被有效的过滤掉,容易使模型过拟合,在实际生产过程中应用此模型不能得到较准确的预测结果。为确定PLS的主成分数目,可以通过交叉验证的方式。
预处理过后的光谱的维度一共60个,则主成分数目的范围应该在1~60之间,用PLS遍历选择主成分数目,通过交叉验证得到模型的预测结果。PLS通过选择不同主成分建立的模型交叉验证结果如下图所示。
图 不同主成分数PLS建模交叉验证结果
由图可知,选择主成分数为13的时候,PLS模型交叉验证结果最好,而且达到了最好的结果为0.209,这说明经过降维之后的数据信噪比得到了提升。对建立好的模型进行存档,用来对预测集数据进行预测,得出预测值和预测集的真实值的均方根误差RMSE为0.210和R2为0.974。
图 PLS预测值和真实值
NIRS模型在线验证
通过建立三种不同的算法模型对得到的光谱数据来预测颗粒中水分的含量,得到的各个模型的结果如下表所示。
表 各个模型的RMSE和R2
模型 | RMSE | R2 |
PLS | 0.210 | 0.974 |
PSO-KRR | 0.221 | 0.981 |
PSO-SVR | 0.207 | 0.972 |
然而,三个模型得到的结果只是对离线数据进行的预测,模型可不可靠,能不能使用是需要在线上验证的,只有在线上可靠的模型才能用在生产过程中。在每个批次制粒过程中的每个阶段中随机取出少量样品,用近红外探头进行采谱,得到经过处理后的光谱数据,分别用以上三个已经保存好的模型进行预测颗粒的水分含量,然后通过干燥失重法测量样品中的水分含量,得到颗粒的真实水分含量。计算不同模型中预测值与真实值的均方根误差作为模型线上结果的评价标准,均方根误差小的即为较好的模型。
采用2.2.1中的实验方案进行六个批次实验,每个批次4分钟采集一次样品,共获得90个样品数据,对每个样本在相同的条件下进行采谱,并计算得到每个样本的实际含水量。为分别用PLS、KRR和SVR对光谱进行预测的结果。
图3-22 PLS模型预测值与真实值
图3-23 KRR模型预测值与真实值
图3-24 SVR模型预测值与真实值
从图中可以看出,KRR模型的预测结果与真实结果的误差值变化比较平稳,距离误差零点远的点较少,SVR次之,PLS效果在三者中比较差,表3-8表示了这三个模型预测值与真实值的均方
表三个模型的均方根误差RMSE
模型 | RMSE |
PLS | 0.232 |
KRR | 0.208 |
SVR | 0.210 |
从图和表中都可以表明,模型的线上预测结果都挺不错。其中,用KRR模型取得的效果最好,因此,选择KRR模型作为光谱水分预测的最优模型。
小结
通过近红外光谱对颗粒中水分含量的预测进行了研究,主要结论如下:
对光谱数据进行了预处理研究,用PLS进行了建模,其中归一化和SG卷积平滑结合的方法效果最好。利用原始光谱验证集的RMSE和R分别为0.242和0.958,预处理后的结果为0.214和0.967;在预测集中使用原始光谱得到的RMSE和R分别为0.221和0.960,预处理后的结果为0.212和0.973。说明经过归一化和SG卷积平滑后的预处理后光谱的信噪比得到了提升。