基于高光谱图像的化橘红快速鉴别研究
化橘红Pummelo Peel,拉丁文exocarpium citri grandis,Citrus grandis‘Tomentosa',化橘红Pummelo Peel,拉丁文exocarpium citri grandis,Citrus grandis‘Tomentosa',异名,化皮、化州橘红、柚皮橘红、柚类橘红、兴化红、毛柑、毛化红、赖橘红。本草记载,橘红一词始出于元王好古《汤液本草》,柚出自《本草经集注》。《神农本草经》仅载有橘柚。《唐本草》记载:柚皮厚味甘,不似橘皮薄,味辛而苦。其肉有亦如橘,有甘有酸。特产于广东省化州市部分村镇,其外果皮为道地药材化橘红,由于密被绒毛,称之为毛橘红,为治疗痰证常用中药。明代《本草原始》云:“橘红,广东化州者胜”。自古以来,化州特产毛橘红就以质优效佳而闻名于世,曾列为明清两代皇室镇咳祛痰贡品。这种外果皮密被绒毛的柚(化州柚)种植历史已有千年,仅分布于东经110°~111°、北纬21°~22°15'的广东省化州市部分地区。20世纪80年代初,受到来源于柚的非道地化橘红~光橘红的冲击,化州柚一度濒临灭绝。如何判断中药的品质并进行鉴定是中药科技工作者工作的重要内容之一。
中药鉴定常用的鉴别方法主要有性状鉴定、显微鉴定、高效液相色谱法。这些方法虽然各有优势,但是有的对人员经验要求极高,有的实验过程较为复杂等特点,不能满足市场快速、可靠检测的需要。本研究探讨建立一种高光谱检测方法,结合计算机人工智能算法,对四种不同的化橘红进行了鉴定研究,并用独立样本数据对不同的模型进行验证。
1. 材料与方法
1.1材料
化橘红四种不同成分正品皮、伪品皮、正品果、伪品果由中山大学提供,其中正品皮样本32个自编批号ZPP1-32、正品果10个自编编号ZPG1-10、伪品果11个自编编号WPG1-11,伪品皮7个自编编号WPP1-7。样本经粉碎均匀后,各取5g放置于培养皿上,备用。
1.2高光谱图像采集
利用GaiaSorter高光谱分选仪系统(V10E、N25E-SWIR)。高光谱成像仪、面阵列相机、卤素灯光源、暗箱、计算机组成。图像采集软件采用高光谱成像系统采集软件完成。高光谱图像预处理在specview上进行,后期的图像处理和光谱处理采用 ENVI5.3和MATLAB2011b 进行处理。
图1 GaiaSorter双系统分选仪
1.3 特征波长选择
光谱信息之间存在大量的冗余和共线性信息特征,对光谱有效信息的提取产生了较大的干扰,且大量光谱数据造成模型复杂、计算量大的问题。本文采用连续投影算法(successive projections algorithm,SPA)进行特征波长的选择,以减少信息冗余和共线性的影响,简化模型,减少计算量。
SPA 是一种特征变量前向选择算法,在光谱特征波长中取得了广泛的应用。本文采用 SPA 算法对去噪处理后的光谱进行特征波长选择。进行SPA 计算时,以建模集的光谱数据和类别赋值为输入,设置选择特征波长数的范围为 5~30。
1.4 光谱指数
光谱指数的产生来源于植被指数,植被指数是指利用卫星不同波段探测数据组合而成的,能反映植物生长状况的指数。植物叶面在可见光红光波段有很强的吸收特性,在近红外波段有很强的反射特性,这是植被遥感监测利用卫星不同波段探测数据组合而成的,能反映植物生长状况的指数。植物叶面在可见光红光波段有很强的吸收特性,在近红外波段有很强的反射特性,这是植被遥感监测的物理基础,通过这两个波段测值的不同组合可得到不同的植被指数。光谱指数是通过任意两波段组合或三波段组合成各种光谱指数,如归一化植被指数(Normalized difference vegetable index,NDVI)、差值植被指数Difference vegetable index,DVI等,探寻最佳的波段组合用于各个领域的模型构建等。
1.5 判别分析方法
偏最小二乘法判别分析( Partial least squaresdiscrimination analysis,PLS-DA)是一种用于判别分析的多变量统计分析方法。判别分析是一种根据观察或测量到的若干变量值,来判断研究对象如何分类的常用统计分析方法。其原理是对不同处理样本(如观测样本、对照样本)的特性分别进行训练,产生训练集,并检验训练集的可信度。本文分别基于全光谱、特别波长光谱建立 PLS-DA 判别分析模型,通过建立光谱数据与类别特征之间的回归模型,进行判别分析。
1.6 极限学习机
极限学习机(extreme learning machine,ELM)是一种简单易用、有效的单隐层前馈神经网络SLFNs学习算法。2004年由南洋理工大学黄广斌副教授提出。传统的神经网络学习算法(如BP算法)需要人为设置大量的网络训练参数,并且很容易产生局部最优解。极限学习机只需要设置网络的隐层节点个数,在算法执行过程中不需要调整网络的输入权值以及隐元的偏置,并且产生唯一的最优解,因此具有学习速度快且泛化性能好的优点。本文中隐含层神经元个数从 1 到 520(288)以步长 1 进行寻优,以最小训练误差下的神经元个数为 ELM 模型隐含层神经元个数。
1.7 评价指标
回归模型得到的样本的预测值不是整数,需要设置阈值以判断样本的归属。本文中阈值设置为 0.5 ,预测值小数点大于或等于0.5则加1归整,小于0.5则减1归整。总体识别精度是指正确识别的个数除以总数,正品皮识别精度是指正品皮正确识别的个数除以正品皮的总数,正品皮识别错误率指数被错误分为正品皮的个数除以正品皮的总数。
2 结果与分析
2.1 化橘红不同成分的原始光谱曲线
本试验采用V10E 相机获取400-1000 nm波长范围共520个波段的可见/近红外光谱数据,N25E-SWIR相机获取1000-2500 nm波长范围共288个波段的近红外光谱数据,正品皮、伪品皮、正品果、伪品果的光谱比较图如图2所示。
从图1可以看到,总体而言,无论是400-1000 nm或1000-2500 nm波长范围内,正品皮的光谱反射率值低于其他三种成分的光谱曲线,从曲线变化趋势来看四种不同成分并没有十分明显的差异。本研究按照Kennard-Stone 算法将样本分成建模集和预测集,其中建模集 38 个样本,预测集32个样本。正品皮、伪品皮、正品果、伪品果分别赋值为 1、2、3、4(表1),不同化橘红成分建模集和预测集样本的划分如表1所示。
图2化橘红不同成分反射光谱曲线图
表1 化橘红不同成分类别赋值与建模集合检验集样本划分
| 正品皮 | 伪品皮 | 正品果 | 伪品果 |
类别赋值 | 1 | 2 | 3 | 4 |
建模集 | 22 | 4 | 5 | 7 |
检验集 | 20 | 3 | 5 | 4 |
2.2 化橘红鉴别算法分析
综合表2、表3和表4,对比光谱指数模型,PLS-DA模型,和 ELM 模型的识别效果可知,无论是光谱指数模型,PLS-DA模型或ELM 模型,基于1000-2500nm范围内构建的模型,其预测值的总体识别率、正品皮识别率均高于400-1000nm范围内的模型,且正品皮的识别错误率也低于400-1000nm范围内的模型。在光谱指数模型、PLS-DA 模型和 ELM 模型的模型中,ELM模型的识别准确性最高,其次是PLS-DA模型,最后是光谱指数模型。基于特征波段光谱的PLS-DA模型其识别准确性低于基于全波段光谱的PLS-DA的模型,但是基于特征波段光谱的ELM模型在400-1000 nm范围内,其识别准确性高于基于全波段光谱的ELM模型,在1000-2500nm范围内,其识别准确性与基于全波段光谱的ELM模型相同。图3为利用ELM模型在400-1000nm和1000-2500nm光谱范围内,基于特征波长和全波段检验集的实测值与预测值的赋予值。
表2基于光谱指数模型检验化橘红样本的精度评价
表3基于PLS-DA模型检验化橘红样本的精度评价
表4 基于ELM模型检验化橘红样本的精度评价
图3 基于400-1000和1000-2500nm的ELM模型预测结果
3 结论与讨论
本研究分别基于V10E与N25E-SWIR两款成像高光谱相机在400-1000nm、1000-2500nm波段分别获取四种化橘红样品的高光谱反射率,采用 SG 平滑算法对提取出的光谱数据进行去噪处理,同时采用 SPA 算法对去噪后的光谱提取特征波长,并分别基于全波段光谱、特征波段光谱建立 PLS-DA 判别模型和 ELM 模型,同时采用全波段循环,探寻最佳的NDVI、DVI两个光谱指数构建判别模型,用于鉴别正品皮、正品果、伪品皮、伪品果,取得了比较好的识别效果。基于特征波段光谱与全波段光谱建立的 ELM 模型取得了最佳效果,总体识别精度、正品皮识别精度、正品皮识别错误率分别为84%、95%和5%。在实际运用中,考虑到识别时间与成分,基于SPA算法提取的特征波段构建的ELM模型效果最佳。本论文研究结果为高光谱成像技术在药品真伪等鉴别检测中的应用提供了可行性。(本文已在中文核心期刊《时珍国医国药》沈小钟,黄宇,苏薇薇,陈兴海,崔穗旭.基于高光谱图像的化橘红快速鉴别研究.时珍国医国药,2019,30(06):1391-1396.)