仪器信息网APP

选仪器、听讲座、看资讯

立即体验

当前位置：仪器社区 >光谱 > 近红外光谱（NIR） > 帖子详情

波长选择方法

Ins_29253308

2024/06/26

近红外光谱（NIR）

由于近红外光谱数据含有上千个波长点，并不是所有波长变量都与目标组分相关。因此需要从采集的波长变量中选择代表样本信息的重要波长，删除冗余波长。合适的波长选择可以增强模型的解释性，简化模型并提高模型的预测精度。目前，波长选择方法主要分为三大类：波长点选择方法、波段选择方法和变量加权方法。波长点选择方法包括基于智能优化算法的方法、基于统计学的方法和相关系数等其他方法。波段选择方法主要有间隔偏最小二乘法、移动窗口偏最小二乘法及其衍生化方法。变量加权方法是波长选择方法的发展与扩充，它虽然使用全部波长点，但给每个波长变量赋予不同的权重，有变量加权的PLS和变量加权的支持向量回归（SVR）等方法。

一、波长点的选择方法

1. 基于智能优化算法的方法

（1）模拟退火

模拟退火算法（SA）是由Metropolis在1953年模拟固体退火过程而提出的一种智能优化算法。SA包括加温过程、等温过程和冷却退火过程。等温下的热平衡过程采用Metropolis准则，即重要性采样法；并用一组称为冷却进度表的参数控制算法进程，使算法能够节约时间。SA在波长选择中的应用由Kalivas等^[²⁹^]在1989年开始，其基本过程如下：

①首先给定一较高的模拟退火起始温度T₀。

②随机选定一初始变量子集S_i作为初始解，用多元校正方法计算其预测误差E_i。

③对初始变量子集给一随机微扰，得到一个新的变量子集S_j，计算其预测误差E_j；如果E_j<E_i，则接受为新解，否则以概率p=exp[-(E_j-E_i)/T]接受为新解，其中T为模拟退火温度。

④回到步骤2，直到达到此温度下的平衡。

⑤回到步骤1，并降低模拟退火温度T，直到T达到指定的最低模拟退火温度。理论上讲，初始温度足够高，温度下降越慢，每个温度下的抽样时间越长，得到全局最优解的可能性越大，但因此花费时间也越长；反之，可以节约时间，但结果可能受到影响。因此，参数选择的效果往往与运行效率密切相关。

（2）遗传算法

遗传算法（ GA）是由美国密歇根大学的Holand教授于1975年提出的一种具有高度的并行、随机和自适应性的概率搜索方法。它根据达尔文进化论“生存竞争”和“优胜劣汰”的原则，从任一初始解群体出发，借助复制、交叉、变异等操作，使优胜者繁殖，劣败者消失，一代一代地重复，最终使所要解决地问题从初始解一步步地逼近全局最优解，以解决复杂的优化问题。GA用于波长点选择时，常采用0/1编码，1代表波长点被选中，0代表波长点未被选中，适应性的评价函数一般通过对预测均方根误差进行一定的变换得到^[³⁰^]。GA是在波长选择中应用最广泛的一种智能搜索算法，但是该方法也存在以下缺点：收敛速度慢、容易陷入局部最优；GA算法具有一定的随机性，多次运行可能结果不统一；容易陷入得到退化解或者收敛于局部极小值。因此，不断有对GA的改进方法出现。

（3）蚁群算法

蚁群算法（ACO）是受蚁群在觅食过程中总能找到一条从巢穴到食物的最短路径这一现象的启发，由意大利学者Dorigo于1991年首次提出的一种新型的智能优化算法。仿生学家发现蚂蚁在它经过的路径上留下一种挥发性的分泌物“信息素”进行间接通讯，其他蚂蚁在觅食过程中能够感知这种物质的存在及浓度，选择信息素浓度高的路径，它们又在该路径上留下信息素，继而吸引更多的蚂蚁，形成一种正反馈。通过这种正反馈，蚂蚁最终可以发现从蚁巢到食物的最短路径。基于蚁群觅食的ACO主要包括路径构建和信息素更新两个基本步骤。ACO具有好的稳健性、通用性、正反馈、并行性、参数少、易与其他算法结合等优点，已经在波长选择中显示出了良好的能力^[³¹^]。然而该算法也具有容易陷入局部最优、搜索时间较长、对连续问题优化能力较弱等缺点，因此又发展了一系列对ACO本身的改进或者与其他搜索算法结合的算法。

（4）粒子群算法

粒子群算法（PSO）是受鸟群觅食过程启发，由美国Eberhart和Kennedy博士在1995年提出来的一种基于群体智能的搜索算法^[³²^]。鸟类通过搜寻目前离食物最近的鸟的周围区域而觅到食物。PSO就是模拟和提炼了鸟群中每个个体根据自身的位置和同伴的位置来确定自己的新位置最终找到食物的过程。在PSO中，每个优化问题的潜在解都是搜索空间中的一只鸟，称之为“粒子”。每个粒子都有一个由被优化的函数决定的适应值（Fitness value）和一个决定其飞翔方向和距离的速度。然后粒子们就追随当前的最优粒子在解空间中搜索。PSO初始化一群随机粒子，然后通过迭代找到最优解。粒子在每次迭代中通过跟踪两个“极值”进行更新。一个是粒子本身所找到的最优解，称为个体极值pBest，一个是整个粒子群目前找到的最优解，称为全局极值gBest。PSO用于波长选择并与PLS、SVR等方法结合，用于芳香化合物毒性的定量构效关系分析、紫外可见光谱、近红外光谱建模等领域表现出了较好的性能。

（5）萤火虫算法

萤火虫算法（FA）是受自然界中萤火虫种群行为的启发，由Xin-She Yang在2008年提出^[³³^]的一种群智能优化算法。当亮度较高的萤火虫飞过亮度较低的萤火虫时，那些本身暗淡的萤火虫会跟随明亮的萤火虫一起飞行。这一行为便是FA的生物学原理。FA假定所求的问题是一个萤火虫种群，问题包含的种种因素看作一个个萤火虫个体，萤火虫受绝对亮度比它大的萤火虫所吸引，并根据位置更新公式进行移动，最后便可以得到最亮的萤火虫，即一个问题的最优解，其基本流程如图5-6所示。FA已经用于近红外波长选择并表现出了良好的性能^[34]。

（6）灰狼算法

灰狼优化算法（GWO）是受灰狼群体捕食过程的启发，由澳大利亚学者Mirjalili等^[35]在2014年提出来的一种群体智能优化算法。灰狼群居，在捕猎过程中它们分工明确、共同合作进行捕猎。领导能力最强的灰狼被记为α，主要负责捕猎过程中的决策部分及管理狼群。剩下的灰狼个体按社会等级被依次记为β，δ和ω。其中β狼和δ狼是等级依次排在后面的两个个体，捕猎中它们会协助α狼对灰狼群进行管理和辅助参与捕猎过程中的决策问题。剩余的狼群被定义为ω，其主要职责是平衡灰狼种群的内部关系及协助α，β，δ对猎物进行攻击。在整个捕猎过程中，首先由α狼带领狼群搜寻、追踪猎物，当距离猎物足够近时，α指挥β，δ狼对猎物进行围攻，并召唤周围的ω狼对猎物进行攻击，当猎物移动时，狼群包围圈也随之移动，直到捕获猎物。GWO算法的原理图如图5-7所示。图中D_α，D_β，D_δ，表示狼到α，β，δ狼的距离，C₁，C₂，C₃表示狼的位置对猎物影响的随机权重，a₁，a₂，a₃表示收敛因子。算法通过包围、追捕、攻击三个阶段进行捕猎，最终捕获猎物即获得全局最优解。卞等^[36]将该方法用于玉米样本的近红外光谱波长选择，结果表明，该方法优化速度快、选择波长数少，还可以显著提高PLS模型的预测精度。

2. 基于统计学的方法

（1）无信息变量消除方法

无信息变量消除方法（UVE）是由Massart等^[³⁷^]等基于PLS回归系数提出的一种波长点选择方法，该方法已经广泛地应用于光谱的有用波长选择中。无信息变量消除法就是把相同于校正集光谱矩阵的变量数目的随机矩阵（等同于噪声）加入光谱中，然后通过留一交叉验证（Leave-one-out cross validation, LOOCV）建立PLS模型，得到回归系数矩阵B，用回归系数的平均值除以回归系数的标准偏差作为衡量某个变量稳定性的参数。将所有变量稳定性值进行降序排序，将噪声的稳定性最大值作为阈值，删除小于该阈值的变量。该方法不仅适用回归系数的绝对值，还将回归系数的方差考虑进来，并且集噪声、光谱和浓度信息于一体，直观实用。

（2）蒙特卡罗-无信息变量消除方法

蒙特卡罗-无信息变量消除方法（Monte Carlo-uninformative variable elimination, MC-UVE）^[38]是对UVE技术的一种发展。该方法不需要添加大量额外的随机噪声变量，采用MC技术代替UVE方法中的LOOCV来计算变量的稳定性值，能更有效地从数据的不同方面抽取并表达样本光谱和待测组分性质之间的复杂关系，可靠地估计每个变量的稳定性，有望解决过拟合问题。随着数据集样本的增大，MC-UVE算法计算速度会明显优于UVE算法。

（3）随机检验-偏最小二乘法

随机检验（Randomization test, RT）是利用样本整体的分布规律对某种假设进行检验的一种统计学方法。RT-PLS方法^[³⁹^]将RT的思想引入到多元校正中波长点的选择过程。该方法保持校正集中光谱数据不变，而将其对应的浓度值随机打乱，利用随机化后的浓度值与原始光谱矩阵建立足够数目（比如1000个）的PLS模型，并将这些模型的回归系数作为“噪声”值。然后对每一个波长，考察其对应的大量“噪声”值与其真实PLS模型回归系数的显著性差异，计算出相应的P值，再根据P值来判断其对模型的重要性。通过考察保留波长数与模型的关系，保留适当的有信息波长，从而建立最优模型。由于这种变量选择的方法结合了统计检验思想，使波长选择的结果更加可靠。

（4）子窗口扰乱分析方法

子窗口扰乱分析（Subwindow permutation analysis, SPA）是一种基于模型集成分析的波长选择方法^[⁴⁰^]。该方法首先在样本方向和变量方向同时使用蒙特卡罗随机采样的技术进行子集的选取。如果某个变量是信息变量，那么含有这个变量的子模型的预测误差要比该变量被扰乱时的模型预测误差小，反之，前者预测误差要比后者大。因此，分别计算两者所有子模型预测误差的平均值，如果前者大于后者，表明该变量为无信息变量，直接将该变量去掉；否则，通过P检验保留那些平均误差分布具有显著性差异的变量。

（5）蒙特卡罗树

分类与回归树（Classification and regression trees, CART）是由四位美国统计学家于1970年提出的一种非常有效的非参数分类和回归的统计学方法。它通过构建二叉树达到预测目的，包括分类树和回归树。CART能同时进行样本的分类或回归与变量的选择。然而，CART算法具有不稳定性，即自变量X较小的变化可引起树结构很大的变化。蒙特卡罗采样后多次结果的统计值恰好具有提高结果稳定性这一优势。将蒙特卡罗与CART的分类树结合，就是蒙特卡罗树（Monte Carlo classification tree algorithm, MCTree）的方法^[⁴¹^]，该方法可以同时用于样本分类与特征变量的选择。首先用蒙特卡罗随机分组技术将校正集产生很多校正子集和验证集，其中校正子集用来构建分类树，验证集使用模糊修剪策略对树进行修剪。每次的校正子集会产生一个分类树，从分类树可以得到样本的分类情况及跟分类相关的特征变量。将这多棵树的结果进行统计，每个变量重要性的平均值即为最终输出的变量重要性指标。

（6）C值

C值（C Value）是张等^[⁴²^]提出的一种变量重要性参数。由于在多元建模中，所有参与建模的变量在系数的加权下共同作用于研究目标，此时变量之间的协同效应也不容忽视，即：在某些变量同时存在时，模型效果显著提高或者降低。为了研究这种协同效应，需要将所有的变量组合进行建模。然而当有N个变量时，其组合数多达2^N个，这对于动辄几百上千的近红外光谱而言，几乎是不可能实现的。因此通过蒙特卡罗随机抽样的方法在有限次变量的随机抽样组合后，构造变量的抽样矩阵和预测误差向量，将两者进行线性回归后用回归系数代表变量在排列组合时的平均重要性，称为C值。将基于C值的波长选择和收缩策略进行结合得到了基于C值的多步变量选择方法（Multi-stepvariableselectionbasedonCvalue, MSVC），该方法在近红外光谱建模中表现出良好的效果。

3. 其他方法

（1）相关系数法和方差分析法

相关系数法（Correlation coefficients）^[⁴³^]是将校正集光谱阵中的每个波长对应的吸光度向量与浓度阵中待测组分的浓度向量进行相关性计算，得到每个波长变量下的相关系数。相关系数数值越大表示该波长对待测组分定量分析的贡献越大。因此将相关系数排序，选择合适的阈值，将相关系数大于该阈值的波长保留，来建立多元校正模型。该方法考察的是单个波长变量和浓度的相关性，如果变量之间有协同效应，即每个变量与浓度单独的相关性很差，但是它们在一起时与浓度的相关性变好。对于这种情况，相关系数法会失效。类似地，方差分析法（Deviation analysis）计算校正集各波长变量处的方差，按方差进行变量从大到小排序，保留大于合适阈值的变量。该方法只考虑了光谱的影响，浓度的影响未包含进来。

（2）互信息

互信息（MI）又称为互熵，来源于信息论，为两个变量统计相关性的一种测度。MI是一个变量包含另一个变量的信息量的度量，也可以理解为由于另一个信息变量获得后，原变量不确定度的缩减值^[⁴⁴^]。MI对变量的分布类型没有特殊要求，变量间线性与非线性相关关系都能描述。将光谱矩阵的波长变量与浓度变量视为两个离散变量，则一个波长变量与浓度变量间的互信息量就表示：该波长变量中包含浓度变量信息的多少。互信息值越大，则该变量被选择的机会就越高。该方法的波长选择是通过前向和后向过程逐步实现的。结果表明，该方法不仅能提高预测精度，也可以对光谱波长选择结果进行解释。

（3）变量投影重要性

变量投影重要性（VIP）是指自变量（波长变量）在解释因变量（浓度变量）时作用的重要性。VIP指标综合考虑了光谱对构造PLS成分的贡献和PLS成分对浓度变量的解释能力。某个波长变量对浓度变量的解释能力是通过得分来传递的，如果得分对浓度变量的解释能力很强，且该变量在构造这个得分时又起到了相当重要的作用，那么最终VIP_j指标也很大，表示该波长变量对浓度变量有很强的解释能力。

（4）连续投影算法

连续投影算法（SPA）是Bregman在1965年提出的一种解决凸可行问题的方法。SPA用于波长选择时选择那些具有最小冗余信息的波长点，采取逐步加入的方式，首先，从一个变量开始，然后每次迭代增加与前一个变量正交性最大的变量，直到到达固定数目的变量。Araujo等^[⁴⁵^]将SPA用于钴、铜、锰、镍、锌五种金属络合物紫外可见光谱的波长选择。结果表明，SPA波长选择能简化模型，提高预测能力。

（5）竞争性自适应权重取样方法

竞争性自适应加权采样（CARS）是梁等^[⁴⁶^]基于回归系数及达尔文进化论提出的一种波长点的选择方法。该方法模仿达尔文进化论中的“适者生存”原则，将每个变量看成一个个体，对变量实施逐步淘汰。利用回归系数绝对值的大小作为衡量变量重要性的指标，同时，引入了指数衰减函数来控制变量的保留率。每次通过自适应重加权采样（ARS）技术筛选出偏最小二乘（PLS）模型中回归系数绝对值大的波长点，去掉权重小的波长点，利用交互检验（CV）选出模型交互验证均方根误差（RMSECV）最低的子集，可有效选择与所测性质相关的最优波长组合。

（6）自组织映射

自组织映射（SOM）是芬兰学者Kohonen在1981年提出的一种机器学习算法。SOM以其特征保持、数据降维以及可视化等特点，已在校正集和预测集的划分、代表性样本的选择、非线性模型的建立、聚类分析、波长选择等方面得到了应用。SOM包含输入层和竞争层，它的输入层是单层单维神经元，对应样本向量或者波长向量；而输出层是二维的神经元，经过SOM训练，相似的样本或波长变量就会聚集到同一神经元或邻近的神经元里。SOM用于波长选择的原理是在同一神经元里的波长点性质相似，只要从每个神经元里选择一个代表性的波长点，那么用这些代表性的波长点就可以代替所有波长点，可以在不损失信息的情况下，减少变量的个数来简化模型^[47]。

（7）Tikhonov正则化方法

正则化方法（TR）是线性代数中为解决不适定问题而提出的方法：用一族与原不适定问题相“邻近”的适定问题的解去逼近原问题的解。Kalivas等^[⁴⁸^]将基于变分原理的Tikhonov正则化（Tikhonov regularization, TR）方法用到化学计量学中，取得了很好的效果。TR方法的一般形式是

(X^TX+λL^TL)b = X^Ty (5-2)

基于最小二乘思路：

min(||Xb-y||_a^a+λ||Lb||_b^b) (5-3)

其中L代表正则化算子，λ是控制第一项和第二项比例的惩罚参数。左边的一项是代表模型偏差（准确度）；右边一项是模型的尺寸，相应地代表模型的方差（精确度）。如果a=2，b=1，即采用一范数对模型进行约束，这时，TR就可以用于波长选择。

相关话题

近期热榜

热门活动

猜你喜欢最新推荐热门推荐更多推荐

品牌合作伙伴

丹纳赫苏州基地打工人的梦想

日立科学仪器

珀金埃尔默仪器（上海）有限公司（PerkinElmer）

珀金埃尔默仪器（上海）有限公司（PerkinElmer）

日本电子株式会社

赛默飞世尔科技

马尔文帕纳科

上海仪电科仪

梅特勒托利多

布鲁克核磁

举报帖子

点赞用户

好友列表

加载中...

正在为您切换请稍后...