近红外光谱的柔性生命力——Norris导数滤波浅说
pspan style="font-family: 楷体, 楷体_GB2312, SimKai " 导读:近红外(NIR)光谱分析是融合样本、变量和模型三个多维空间的建模体系。它具有直接快速的分析优势,同时,也对方法学提出了挑战。光谱预处理是一项基本技能,在信息提取、去噪,模型维护及传递中扮演重要角色。由于对象、条件和测量方式的多样化,预处理模式通常需要个性化优选。Norris导数滤波(NDF)包含导数阶数、平滑点数和差分间隔三个可变参数,是多模式的算法群。功能各异的参数融合,可提升近红外光谱的柔性生命力,满足多样性光谱预处理的个性化需求。本文以近红外玉米粗蛋白分析为例,分享对Norris导数滤波的理解。在材料制作前期,惊闻Karl H. Norris博士病逝!谨以此文悼念Dr. Karl H. Norris!/span/ppspan style="font-family: 楷体, 楷体_GB2312, SimKai "/span/pp style="text-align: center"img style="max-width: 100% max-height: 100% width: 300px height: 319px " src="https://img1.17img.cn/17img/images/201908/uepic/dd11b712-09f6-4b18-87b6-a00f0bd3234f.jpg" title="微信图片_20190819100830.jpg" alt="微信图片_20190819100830.jpg" width="300" height="319" border="0" vspace="0"//ppspan style="font-family: 楷体, 楷体_GB2312, SimKai "/spanbr//pp style="text-align: center "span style="color: rgb(0, 0, 0) "strong暨南大学光电工程系 潘涛教授/strong/span/ppspan style="color: rgb(0, 176, 80) "strong 引 言/strong/span/pp 众所周知,近红外(NIR)光谱是典型的多维信息数据。近红外光谱分析是融合样本、变量和模型三个多维空间的建模体系,化学计量学是核心技术。相对于其他分析手段,近红外光谱具有快速简便的优势,它可以不进行化学或物理的前处理,直接进行测量。例如,采用漫反射法直接测量固体样品(如粉末,颗粒,纤维等)、透射法直接测量多种组分的复杂液体样品(如血液,牛奶,酒类等)。同时,它也对方法学提出了挑战。例如,需要处理光谱基线漂移和倾斜等光谱扰动。光谱预处理是非常必要的,但由于样品和测量方法的多样性,预处理模式通常需要个性化优选。/ppspan style="color: rgb(0, 176, 80) "strong 1. 几类常见光谱预处理方法/strong/span/pp span style="color: rgb(0, 176, 80) "strong标准正态变量变换/strong/span(standard normal variate transformation, SNV)是常用的光谱预处理方法。它在每一条光谱内进行横向标准化处理,提升光谱之间的差异度,提高模型稳健性和预测能力sup[1, 2]/sup。用于消除固体颗粒大小、表面散射以及光程变化对NIR漫反射光谱的影响sup[3]/sup。最近,我们将SNV方法应用于水稻种子鉴别、种子纯度定量的近红外分析sup[4, 5]/sup。/pp span style="color: rgb(0, 176, 80) "strong多元散射校正/strong/span(multiplicative scatter correction, MSC)是另一种常用的光谱预处理方法sup[6~9]/sup。它与SNV基本相同,主要是消除颗粒分布不均匀及颗粒大小产生的散射影响,在固体漫反射和浆状物透(反)射光谱中应用较为广泛sup[3]/sup。MSC假设样品光谱与平均光谱整体线性相关,并以全谱区为窗口来校正所有波长的吸光度。然而,在宽谱段的情形,难以对局部相关性差的波长实现满意的校正效果,这会影响光谱的整体预测能力。/pp 文献[10]提出的span style="color: rgb(0, 176, 80) "strong分段多元散射校正/strong/span(piecewise multiplicative scatter correction, PMSC)是一种分段线性校正方法。PMSC方法允许可变的校正窗口(p+1+q),从算法上覆盖MSC。校正窗口参数的优化是必须的sup[11]/sup,然而,受限于当时的计算机水平,相应的参数优化平台尚未建立,影响了PMSC方法的应用。最近,本团队提出移动窗口相关系数谱,用于描述光谱之间的局部相关性,构建了基于PLS回归的PMSC参数优化平台,取得了显著优于MSC的预测效果,应用于水稻种子纯度、土壤有机质的近红外分析sup[12]/sup。/pp 上述基础性的光谱预处理方法,通常需要和平滑、求导法进行联用。平滑用于消除弱噪声而保留光谱轮廓,一阶导数用于校正光谱的基线漂移(additive baseline),二阶导数用于校正光谱的线性基线漂移(linear baseline)等噪声sup[11]/sup。/pp span style="color: rgb(0, 176, 80) "strongSavitzky-Golay平滑/strong/span(SG smoothing)是一种十分优雅的产生导数光谱的预处理方法sup[13]/sup。它采用平滑窗口波长数(2m + 1)、多项式次数(n)和导数阶数(s)作为参数。在平滑窗口内,对中心波长的光谱数据进行多项式校正,再通过移动窗口方式实现全谱的校正。不同的参数组合对应不同的平滑模式,计算公式也各不相同。功能各异的参数的融合,提升了近红外光谱的柔性生命力,可满足多样性光谱预处理的个性化需求。本团队构建了三维参数(m,n,s)遍历的偏最小二乘(PLS)算法平台,实现了SG平滑模式的大范围参数优化,应用于近红外光谱的血糖分析sup[14]/sup、土壤检测sup[15,16]/sup、转基因甘蔗育种筛查sup[17]/sup、糖化血红蛋白分析sup[18]/sup、地中海贫血筛查sup[19,20]/sup、血粘度测定sup[21,22]/sup等方面。/pp span style="color: rgb(0, 112, 192) "Norris导数滤波(Norris derivative filter, NDF)是另一个著名的光谱预处理方法。它由被誉为“近红外光谱之父”的Karl H. Norris博士等人提出sup[23, 24]/sup。但是,Norris当时只简单的描述了算法的框架,后面的应用文献中也未看到详细描述。我们在褚小立的专著sup[3]/sup中找到了稍微具体的公式,但是严格的方法体系,特别是多参数融合方法仍需完善。在从事近红外光谱的长期工作中,我们深感到Norris导数滤波的柔性生命力。/span/ppspan style="color: rgb(0, 112, 192) " 最近,仪器信息网和中国仪器仪表学会近红外光谱分会计划开设的《近红外光谱新技术/应用进展》网络专题,并向我约稿。由此,萌发了写一篇小文介绍Norris导数滤波的想法。/span/ppspan style="color: rgb(0, 176, 80) "strong 2. Norris导数滤波(NDF)/strong/span/pp NDF是一个基于多个可变参数的多模式光谱预处理算法群,在近红外分析中有广泛应用。它包括移动平均平滑和差分求导两个环节,使用三个参数:平滑点数(s),导数阶数(d)和差分间隔(g)。功能各异的参数组合,提供了多样性的光谱预处理方式,可以满足不同对象的近红外分析的个性化需求。/pp 最近,我们构建了三维NDF参数(d,s,g)遍历的PLS算法平台,实现了NDF模式的大范围参数优化,应用于玉米粗蛋白分析和血清尿素氮分析sup[25, 26]/sup。/ppspan style="color: rgb(0, 176, 80) "strong 【移动平均平滑】/strong/span/pp 移动平均平滑法选择一个具有奇数个波长的平滑窗口(s),用窗口内的全体测量值的平均值代替中心波长的测量值,自左至右移动窗口,完成对所有点的平滑(左右半宽带的波长除外)。设全谱段的波长总数为Nsub0/sub,s是一个可变的奇数,s = 1, 3, … ,S。理论上,S可以取不超过Nsub0/sub的最大奇数。由于关联性低,采用太宽的平滑窗口是不合理的,本文设平滑点数上限S=99。特别地,s=1代表不进行移动平均平滑,即,原光谱。/pp 设光谱的第k个波长的吸光度为xsubk/sub,在以k为中心,宽度为s的对称波长窗口内,对中心波长吸光度进行平滑,如下:/pp style="text-align: center"img style="max-width: 100% max-height: 100% width: 600px height: 124px " src="https://img1.17img.cn/17img/images/201908/uepic/60849de6-dced-4490-8f63-649d3cee9496.jpg" title="01.png" alt="01.png" width="600" height="124" border="0" vspace="0"//pp 值得注意的是,对于最左边或最右边的img src="https://img1.17img.cn/17img/images/201908/uepic/b8cea792-9064-4cd0-862c-f9fafaf26e44.jpg" title="微信图片_20190826114304.png" alt="微信图片_20190826114304.png" style="text-align: center max-width: 100% max-height: 100% "/个波长,由于该点左边或者右边的点数小于 img src="https://img1.17img.cn/17img/images/201908/uepic/d295318f-2ca9-492e-859f-c3beef9935bd.jpg" title="微信图片_20190826114304.png" alt="微信图片_20190826114304.png" style="text-align: center max-width: 100% max-height: 100% "/,不能进行对称平滑。考虑到数据的连续性,对于最左边的img src="https://img1.17img.cn/17img/images/201908/uepic/fe38ef55-a973-4f74-93fc-0302a031f2e2.jpg" title="微信图片_20190826114304.png" alt="微信图片_20190826114304.png" style="text-align: center max-width: 100% max-height: 100% "/span style="text-align: center "个波长,我们提出近似平滑,如下:/span/pp style="text-align: center"img style="max-width: 100% max-height: 100% width: 600px height: 122px " src="https://img1.17img.cn/17img/images/201908/uepic/0fc41379-50ef-4a45-bdb2-ab12d1f348c4.jpg" title="02.png" alt="02.png" width="600" height="122" border="0" vspace="0"//pp 对于最右边的波长,吸光度的平滑方法类似于公式(2),如下:/pp style="text-align: center"img style="max-width:100% max-height:100% " src="https://img1.17img.cn/17img/images/201908/uepic/98199654-339d-4808-ac8b-b9678b723566.jpg" title="03.png" alt="03.png"//pp 上述处理,使得光谱边界数据自然过渡,更为合理。/ppspan style="color: rgb(0, 176, 80) "strong 【差分求导】/strong/span/pp 为了避免差分求导产生传递误差,通常需要经过移动平均平滑光谱后,再进行中心差分法求导。由于近红外光谱比较平坦,不同对象的光谱分辨率不尽相同。光谱采集的数据间隔不一定适用于差分间隔。Norris导数采用一个可变的波长间隔数作为导数的差分间隔(g),g = 1, 2, … ,G。由于关联性低,太大的差分间隔是不合理的,本文设差分间隔的上限G=50。/pp 对于第k个波长的吸光度xsubk/sub,采用基于差分间隔g的中心差分,计算吸光度的一阶导数,自左至右移动,得到所有点的导数值(左右半宽带的波长除外)。如下:/pp style="text-align: center"img style="max-width:100% max-height:100% " src="https://img1.17img.cn/17img/images/201908/uepic/f4858970-26bd-4911-84b4-a7eec9998e8d.jpg" title="04.png" alt="04.png"//pp 值得注意的是,对于最左边或最右边的g个波长,由于该点左边或者右边的点数小于g,不能执行中心差分法求导。考虑到数据的连续性,对于最左边的g个波长,我们提出前向差分法计算一阶导数,如下:/pp style="text-align: center"img style="max-width:100% max-height:100% " src="https://img1.17img.cn/17img/images/201908/uepic/88f4e45a-9f52-40cb-889c-3b57efab9059.jpg" title="05.png" alt="05.png"//pp 对于最右边的g波长,则可通过后向差分法计算一阶导数,如下:/pp style="text-align: center"img style="max-width:100% max-height:100% " src="https://img1.17img.cn/17img/images/201908/uepic/01dbdd54-82d4-49fc-bafa-7dc511a8f3bd.jpg" title="06.png" alt="06.png"//pp 二阶导数,可由上面的一阶导数再求导获得,编程实现简单,不再赘述。strong考虑到3阶以上的高阶导数的绝对量值小,光谱信息含量低,一般不建议采用3阶以上的导数。/strong本文设导数阶数为d = 0, 1, 2。特别地,d=0代表不进行差分求导,即,只进行移动平均平滑。/ppspan style="color: rgb(0, 176, 80) "strong 【参数联合优化】/strong/span/pp 对于任意一个参数组合(d, s, g),都对应一个Norris导数模式。对于d = 0, 1, 2;s = 1, 3, … , 99;g = 1, 2, … , 50,共有50+2× 50× 50=5050个模式。三个功能各异的参数的变化,使得Norris导数谱比原谱更为灵活、柔性、多样化,适用性宽。下面,提出一种基于PLS的Norris参数的联合优选方法。为提高参数选择合理性,采用基于随机性、相似性、稳定性的定标-预测-检验的多划分建模设计sup[27, 28]/sup。/pp 建立所有Norris导数谱的PLS模型,称为Norris-PLS模型。计算每一组样品划分的预测均方根误差(SEP)和预测相关系数(RsubP/sub)。进一步,计算所有划分的平均值(SEPsubAve/sub,RsubP,Ave/sub)和标准偏差(SEPsubSD/sub,RsubP,SD/sub)。并基于综合预测效果:/pp style="text-align: center"img style="max-width: 100% max-height: 100% width: 600px height: 41px " src="https://img1.17img.cn/17img/images/201908/uepic/10c59c4b-f073-4ce9-a25a-09c90ec33c1a.jpg" title="7.png" alt="7.png" width="600" height="41" border="0" vspace="0"//pp 优选具有稳定性的全局最优Norris参数,如下:/pp style="text-align: center"img style="max-width: 100% max-height: 100% width: 600px height: 62px " src="https://img1.17img.cn/17img/images/201908/uepic/4e15c028-35d0-4198-b122-f5bc4e751221.jpg" title="8.png" alt="8.png" width="600" height="62" border="0" vspace="0"//pp 此外,对应导数阶数d=0, 1, 2,可以计算两类单参数局部最优解,如下:/pp style="text-align: center"img style="max-width: 100% max-height: 100% width: 600px height: 95px " src="https://img1.17img.cn/17img/images/201908/uepic/fb7412b2-80aa-4b3b-871d-21148c32e7e3.jpg" title="9.png" alt="9.png" width="600" height="95" border="0" vspace="0"//pp 可得到,关于平滑点数s的三条建模效果曲线SEPsup+/sup(0, s),SEPsup+/sup(1, s),SEPsup+/sup(2, s)和关于差分间隔数g的两条建模效果曲线SEPsup+/sup(1, g),SEPsup+/sup(2, g)。通过它们可以分析Norris参数的适应性。/ppspan style="color: rgb(0, 176, 80) "strong 3. 实例—近红外玉米粗蛋白分析/strong/span/ppspan style="color: rgb(0, 176, 80) "strong 【材料】/strong/span/pp 玉米颗粒样品156份,研磨并过筛(1.0mm)为粉末样品(未干燥),采用凯氏定氮法测量样品粗蛋白。最小值、最大值、平均值、标准差分别为7.31、12.1、9.46、0.92(%)。/ppspan style="color: rgb(0, 176, 80) " strong 【近红外光谱仪器】/strong/span/pp NexussupTM/sup 870 FT-NIR光谱仪(Thermo Nicolet Corporation,MA,USA);漫反射附件;波数范围:9997~3996 cmsup-1/sup;分辨率:32 cmsup-1/sup。/pp strongspan style="color: rgb(0, 176, 80) "【定标-预测-检验的多划分建模】/span/strong/pp 从156个样品随机选取56个为检验集,余下100个为建模集;进一步将建模集随机划分为定标集(50个)和预测集(50个),共10次。对所有划分建立PLS模型,确定平均预测效果(SEPsubAve/sub,RsubP,Ave/sub,SEPsubSD/sub,RsubP,SD/sub,SEPsup+/sup)。/ppspan style="color: rgb(0, 176, 80) " strong【分析】/strong/span/pp strong先来观察玉米粉末样品的近红外光谱及其Norris导数谱的特征。/strong/pp 以一个玉米粉末样品为例,采用不同平滑点数(s = 1~49,奇数),首先计算移动平均平滑谱,如图1所示。其中,s = 1为原光谱。观察到:随着平滑点数增大,主吸收峰右移,且渐趋平坦。/pp style="text-align: center"img style="max-width:100% max-height:100% " src="https://img1.17img.cn/17img/images/201908/uepic/1dd5ef51-7b05-4b16-be80-4c924cd44302.jpg" title="图1.png" alt="图1.png"//pp style="text-align: center "strong图1 玉米粉末样品的移动平均平滑谱随平滑点数的演变图/strong/pp 在移动平均平滑谱(s = 13)的基础上,采用不同差分间隔数(g = 1~30),进一步计算Norris导数谱(一、二阶导数),如图2所示。观察到:主吸收峰翻转为波谷,同时出现新的特征峰。随着差分间隔增大,波谱幅度逐渐减小。/pp style="text-align: center"img style="max-width: 100% max-height: 100% width: 600px height: 232px " src="https://img1.17img.cn/17img/images/201908/uepic/edc64a8e-9c8f-4b57-b4f2-d76bbd2da356.jpg" title="图2.png" alt="图2.png" width="600" height="232" border="0" vspace="0"//pp style="text-align: center "strong图2 玉米粉末样品的Norris导数谱随差分间隔的演变图: (a)一阶导数 (b)二阶导数/strong/pp strong 再展示相关的建模效果。/strong/pp 首先,未经预处理的直接PLS模型的平均建模效果,汇总在表1中。/pp 在所有5050个Norris-PLS模型中,全局最优模型的参数(NDF模式)为d =2,g =3和s=13,相应的建模效果,也汇总在表1中。观察到:所有预测效果的指标均有显著的改善。/pp style="text-align: center "strong表1 玉米粗蛋白分析的建模预测效果(%)/strong/ppstrong/strong/pp style="text-align: center"img style="max-width: 100% max-height: 100% width: 600px height: 104px " src="https://img1.17img.cn/17img/images/201908/uepic/9539dcc6-2f95-46ae-8caa-c25937062f19.jpg" title="表1.png" alt="表1.png" width="600" height="104" border="0" vspace="0"//pp strong进一步观察Norris参数的适应性。/strong采用单参数局部最优解,分析建模效果曲线。其中,SEPsup+/sup(2, s)、SEPsup+/sup(2, g),参见图3。/pp style="text-align: center"img style="max-width: 100% max-height: 100% width: 600px height: 208px " src="https://img1.17img.cn/17img/images/201908/uepic/26a55fc2-210b-4561-8367-75081383a9db.jpg" title="图3.png" alt="图3.png" width="600" height="208" border="0" vspace="0"//pp style="text-align: center "strong图3 单参数局部最优Norris-PLS模型的建模效果:(a)平滑点数,(b)差分间隔数/strong/pp 在所有二阶的Norris导数谱中(d=2),不同平滑点数对应于局部最优模型的SEPsup+/sup,如图4(a)所示;不同差分间隔数对应于局部最优模型的SEPsup+/sup,如图4(b)所示。观察到:不同参数的建模效果差异颇大。/pp 结果表明:(1)不同的Norris参数,建模预测效果明显不同;(2)参数的设置,不能凭经验设定,针对具体情况进行全局优化是必要的。/ppstrong 后 语/strong/pp Norris导数滤波是一种执行良好的光谱预处理算法群。功能各异的参数融合,可提升近红外光谱的柔性生命力,满足多样性光谱预处理的个性化需求。Norris模式的优化选择是必要的。/ppspan style="color: rgb(0, 112, 192) " 这里分享的,可能是近红外的一个小话题。但,近红外光谱分析就是由多个这样的小话题组成的。从2006年第一届全国近红外光谱会议召开,到近红外分会成立十周年的现在,我们见证了我国近红外事业的发展壮大。祝福它!这里的内容可能有点艰涩,但我们相信它是有趣的。谢谢大家的阅读,恳请提出宝贵意见!/span/ppspan style="font-family: " times="" new=""strong 参考文献/strong/span/pp [1] R.J. Barnes, M.S. Dhanoa, Susan J. Lister., Appl Spectrosc, 1989, 43(5): 772–777/pp [2] M.S. Dhanoa, S.J. Lister, R. Sanderson, R.J. Barnes, J Near Infrared Spec, 1994, 2(1): 43-47./pp [3] 褚小立,化学计量学方法与分子光谱分析技术,北京:化学工业出版社,2011/pp [4] J.M. Chen, M.L. Li, T. Pan, L.W. Pang, L.J. Yao, J. Zhang, Spectrochim Acta A, 2019, 219: 179-185/pp [5] J. Zhang, M.L. Li, T. Pan, L.J. Yao, J.M. Chen, Comput Electron Agr, 2019, 164: 104882/pp [6] P. Geladi, D. MacDougall, H. Martens, Appl Spectrosc, 1985, 39:491-500./pp [7] T. Isaksson, T. Næ s, Appl Spectrosc, 1988, 42:1273-1284/pp [8] K.E. Kramer, R.E. Morris, S.L. Rose-Pehrsson, Chemometr Intell Lab, 2008, 92:33-43./pp [9] A Rinnan, F. van den Berg, S.B. Engelsen, Trends Anal Chem, 2009, 28:1201-1222./pp [10] T. Isaksson, B. Kowalski, Appl Spectrosc, 1993, 47:702-709./pp [11] T. Næ s, T. Isaksson, T. Feaern, T. Davies, A User Friendly Guide to Multivariate Calibration and Classification, Chichester, UK: NIR Publications, 2002/pp [12] F.F. Lei, Y.H. Yang, J. Zhang, J. Zhong, L.J. Yao, J.M. Chen, T. Pan, Chemometr Intell Lab, 2019, 191(15):158-167/pp [13] A. Savitzky, M.J.E. Golay, Anal Chem, 1964, 36(8): 1627-1639/pp [14] 谢军,潘涛,陈洁梅,陈华舟,任小焕,分析化学,2010,38(3): 342-346/pp [15] H.Z. Chen, T. Pan, J.M. Chen, Q.P. Lu, Chemometr Intell Lab, 2011, 107: 139-146/pp [16] 潘涛,吴振涛,陈华舟,分析化学,2012,40(6): 920-924/pp [17] H.S. Guo, J.M. Chen, T. Pan, J.H. Wang, G. Cao, Anal Methods, 2014, 6: 8810-8816/pp [18] Y. Han, J.M. Chen, T. Pan, G.S. Liu, Chemometr Intell Lab, 2015, 145: 84-92/pp [19] J.M. Chen, L.J. Peng, Y. Han, L.J. Yao, J. Zhang, T. Pan, Spectrochim Acta A, 2018, 193: 499-506/pp [20] L.J. Yao, W.Q. Xu, T. Pan, J.M. Chen, J Innov Opt Heal Sci, 2018, 11(2): 1850005/pp [21] J.M. Chen, Z.W. Yin, Y. Tang, T. Pan, Anal Bioanal Chem, 2017, 409(10): 2737-2745/pp [22] J. Zhang, F.F. Lei, M.L. Li, T. Pan, L.J. Yao, J.M. Chen, Spectrochim Acta A, 2019, 219:427–435/pp [23] K.H. Norris, P.C. Williams, Cereal Chem, 1984, 61(2): 158-165/pp [24] P.C. Williams, K.H. Norris, Near-infrared Technology in the Agricultural and Food Industries, American Association of Cereal Chemists, Inc., St. Paul, Minnesota, USA, 1987/pp [25] J. Zhang, L.J. Yao, Y.H. Yang, J.M. Chen, Tao Pan, 19th International Council for NIR Spectroscopy Meting (NIR2019), 2019, Gold Coast, Australia/pp [26] Y.H. Yang, F.F. Lei, J. Zhang, L.J. Yao, J.M. Chen, T. Pan, J Innov Opt Heal Sci, 2019, 1950018/pp [27] T. Pan, J.M. Liu, J.M. Chen, G.P. Zhang, Y. Zhao, Anal Methods, 2013, 5: 4355-4362/pp [28] T. Pan, M.M. Li, J.M. Chen, Appl Spectrosc, 2014, 68(3): 263-271/pp style="text-align: right " strongspan style="font-family: 楷体, 楷体_GB2312, SimKai " (暨南大学光电工程系 潘涛,张静,施小文 供稿)/span/strong/p