以大米产地判别为例,本节重点介绍采用近红外光谱成像技术定性判别东北/非东北大米产地的分析流程和分析方法。
一、样本制备
东北大米产区辽阔,涵盖黑、辽、吉三省,主流品种以长粒香、圆粒香、稻花香和小町米4种为主。自然环境的不同会导致不同产区的大米的成分存在细微差异,如直链淀粉和支链淀粉的含量;不同品种的大米,其形态、透明度等更是在外观上存在显著差异,如长粒香大米外观呈细长型,而圆粒香为圆短型。因此即使同为东北大米,个体也会因产区和品种存在较大差别。
东北大米以粳米为主。粳米产区主要分布在东北、江苏、安徽、浙江和河北等地,而籼米主要分布在湖南、湖北、广东、广西、江西和四川等地。根据市场掺伪的实际情况,本实验选取样本均为粳米,产地及品种信息如下表7-4所示。实验样本由浙江省农业科学院、北京古船米业有限公司分别于2018年6月和2018年11月提供。
表7-4大米样本信息
类别 | 产地 | 品种 | 样本数 |
东北大米 | 黑龙江 | 长粒香 | 1 |
吉林 | 稻花香 | 1 |
圆粒香 | 1 |
辽宁 | 小町米 | 2 |
非东北大米 | 江苏 | 长粒香 | 1 |
小町米 | 1 |
浙江 | 圆粒香 | 1 |
安徽 | 小町米 | 1 |
河北 | 小町米 | 1 |
二、光谱图像采集
采用SisuCHEMA高光谱成像系统采集大米样本高光谱图像。实验采集参数如下:相机型号为FX17,波长范围900~1700nm,光谱分辨率为8nm,共包括224个波段,曝光时间为5,帧频为40 Hz。大米颗粒相对较小且表面圆滑,易在扫描过程中由于载物台的移动出现晃动和偏移导致成像质量差的现象。因此实验中将大米样本置于10×10的数粒板上,将数粒板置于移动载物台进行成像实验。实验如图7-9所示。针对每种产地大米样本,随机选取100粒进行高光谱成像实验,共计采集100*10个大米样本的高光谱图像。
三、光谱图像特征提取
1. 光谱特征提取
在ENVI 4.8软件中对大米样本高光谱进行黑白板校正后,按照大米轮廓选取感兴趣区域提取出每粒大米样本的平均光谱。根据样本集光谱信息,采用KS法按照4:1划分训练集样本(800个)和测试集样本(200个)。图7-10所示为样本集中10个产地的大米平均光谱。由于大米化学成分相似,因此其光谱曲线轮廓非常相似,无法直接从谱图上分辨出东北和非东北大米产地的差异。采用连SPA法挑选出8个近红外特征波长,分别为942.52nm、945.98nm、1220.87nm、1315.62nm、1400.20nm、1424.92nm、1460.30nm、1705.91nm,如图7-11所示。其中942.52nm、945.98nm附近主要反映了游离水的O-H伸缩振动的二级倍频信息;1220.87nm、1315.62nm则集中反映了C-H第二组合频的信息,淀粉、蛋白等成分中含有丰富的C-H基团;1400.20nm、1424.92nm、1460.30nm附近信息量较为集中,既有游离水的O-H一级倍频信息,也有C-H的组合频信息,还有酰胺的N-H一级倍频信息;1705.91nm主要反映了-CH3和-CH2的一倍频信息。
因此采用SPA法筛选得到的特征波长与大米成分如水分、淀粉、蛋白等紧密相关。
2. 图像特征提取
针对上述通过SPA提取的8个特征波长,提取相应波长处的图像,采用HOG提取图像特征,首先将图像缩放至256×256后,采用Gamma校正对图像进行颜色空间的归一化,降低图像局部阴影和光照变化所产生的影响,抑制噪音干扰,并对图像每个像素的梯度方向和大小进行计算。再将图像分成8×8的细胞单元,统计梯度直方图,应用梯度的幅值进行投票,然后将相邻的细胞组成块并对重叠部分进行直方图归一化。最后将所有块中的梯度方向直方图合并组成特征向量,具体步骤如图7-12所示。
四、基于联合SVM的大米产地判别
1. 基于单波长图像特征的大米产地鉴别模型的建立
这里采用SVM(线性核函数)分别建立了基于8个单波长图像HOG特征的东北/非东北大米产地鉴别模型。单波长模型的训练集识别率可以达到100%,测试集识别率如下表7-5所示。根据识别率高低排序可得,在1460.30nm、1400.20nm、1424.92nm波长下建立的分类模型识别率相对较好,分析其原因主要由于该区间反映的信息极为丰富,涵盖了O-H,N-H和C-H基团,与大米成分所反映出的特征信息紧密相关。其中尤以1460.30 nm处所建模型识别率最高,而该波长附近正是反映伯酰胺中N-H对称和反对称伸缩振动的组合频谱带,该基团反映出了东北大米和非东北大米在蛋白质成分上有显著差异。但是总体而言,基于单特征波长图像的模型识别率不高,有进一步提升的空间。
表7-5 基于单波长图像HOG特征的大米产地鉴别模型识别率
波长/nm | 1460.30 | 1400.20 | 1424.92 | 945.98 | 1315.62 | 1220.87 | 1705.91 | 942.53 |
识别率/% | 85.5 | 77.5 | 76.5 | 73.5 | 71 | 68.5 | 67 | 65.5 |
2. 基于多波长图像特征的大米产地鉴别模型集群的建立
本实验中收集的样本来源差异较大,如品种和产地的相互交叉等,因此同一样本在不同的特征波长处反映的光谱信息量也存在显著差异,直接导致同一样本在不同的单波长模型中存在截然不同的识别结果。为建立适用范围广、预测性能更优的判别模型,这里提出采用多模型共识判别策略,即联合多个单特征波长图像模型,通过模型集群来综合判别大米产地。判别流程如下图7-13所示。假设子模型个数为n,采用n个子模型预测同一样本可以得到n个识别结果,当识别结果中识别为真的比率>50%,则判定样本为真,反之则为假。
为了保证综合判别的结果不会出现同一个样本判别为真和假的识别率相同,本实验确定联合子模型个数为奇数3、5、7。为了精简组合个数,首先根据表7-5中单波长子模型的识别率从高到低进行排序,然后依次选取子模型进行组合判别。以联合3个波长建立模型集群为例,如下表7-6所示。以单波长下模式识别率最高的1460.30nm、1400.20nm两个子模型为基准,依次顺序选取剩余的5个单波长子模型进行联合判别,则有如下表7-6所示的6种组合可能。从表7-6中可知,联合3个模型后模型识别率均有了一定程度的提高。其中联合1315.62nm波长的模型识别率最高,达88%。1315.62nm处反映了C-H第二组合频的信息,淀粉、蛋白等成分中含有丰富的C-H基团,而东北大米和非东北大米在淀粉组成和蛋白质含量方面确实存在显著差异。
表7-6 三波长联合模型识别率
固定波长/nm | 联合波长/nm | 识别率/% |
1460.30 1400.20 | 1424.92 | 87 |
945.98 | 87.5 |
1315.62 | 88 |
1220.87 | 85.5 |
1705.91 | 85.5 |
942.53 | 86.5 |
同理固定表7-5中前4个识别率最高的1460.30nm、1400.20nm、1424.92nm、945.98nm波长的子模型,依次顺序选取剩余的4个单波长子模型进行联合判别,则有如下表7-7所示的4种组合可能。从表4中可知,分别联合1315.62nm、1705.91nm模型,使模型识别率得到了进一步提高。而该两个波段同样反映了淀粉、蛋白质等的C-H、-CH3基团信息。
表7-7 五波长联合模型识别率
固定波长/nm | 联合波长/nm | 识别率/% |
1460.30 | 1315.62 | 88.5 |
1400.20 | 1220.87 | 87 |
1424.92 | 1705.91 | 88.5 |
945.98 | 942.53 | 88 |
固定表7-5中前6个识别率最高的1460.30nm、1400.20nm、1424.92nm、945.98nm、1315.62nm、1220.87nm波长的子模型,依次顺序选取剩余的2个单波长子模型进行联合判别,则有如下表7-8所示的2种组合可能。模型识别率最高可达90.5%。综合表7-5和表7-8可得关键波长处的子模型对模型集群判别结果起主要作用,如1460.30nm、1400.20nm处的子模型;联合模型个数越多,模型集群识别率也越高,但是模型识别率的提高速度较为缓慢。
表7-8 七波长联合模型识别率
固定波长/nm | 联合波长/nm | 识别率/% |
1460.30 1400.20 1424.92 945.98 1315.62 1220.87 | 1705.91 | 90 |
942.53 | 90.5 |
综上,本小节采集了10个产地、4个品种共计1000粒大米样本的高光谱图像,采用SPA法针对样本集光谱筛选出8个特征波长,分别提取8个特征波长对应图像的HOG特征,建立基于单波长图像特征的SVM模型。将单波长图像模型的识别率高低排序后,联合3个、5个、7个单波长模型对大米产地进行共识判别,可将东北/非东北大米产地的识别率从单模型的85.5%显著提高到90.5%。实验结果表明基于高光谱技术和机器学习算法的模型集群共识策略可为建立稳健、切实可行的大米产地溯源模型提供思路和方法参考。
五、基于AlexNet卷积神经网络的大米产地判别
2012年提出的AlexNet卷积神经网络掀起了深度学习的应用热潮。AlexNet结构如图7-14所示,共有8层,前5层为卷积层,后3层为全连接层。它首次在CNN中成功应用了ReLU、Dropout和LRN等。AlexNet利用ReLU代替sigmoid提升了模型的收敛速度;通过LRN局部响应归一化增强模型的泛化能力;最重要的是采用Dropout方式可以有效避免小样本数据集训练过程中极易出现的过拟合现象。本小节探索采用AlexNet网络实现大米产地高光谱判别的可行性。
图7-14 AlexNet卷积神经网络结构示意图
1. 训练集和测试集选取
在7.2.5中,数据集直接选用部分高光谱图像,这里不采用该种方式,而是对输入高光谱图像结合分析对象经过了优化选取。
相同品种不同产区的大米由于生长的自然环境不同,因此在内部品质上有着较为明显的差异,而近红外光谱可以反映样本内部成分信息,因此这里采用PCA方法筛选反映产地信息的关键波长。经PCA分解计算可得第一、第二和第三主成分的贡献率分别为95.20%,4.50%,0.22%,其中前两维主成分累积贡献率可达99.70%,涵盖了原始光谱数据的绝大部分信息,因此后续主要针对前两维主成分进行深入分析。图7-15为第一、第二主成分载荷对应的全波长权重系数分布图。第一主成分中权值最大值对应特征波长为1396.67nm,第二主成分对应特征波长为1467.38nm。其中1396.67nm附近谱区主要反映游离水O-H键的一级倍频信息以及C-H键的组合频信息;而1468.37nm附近谱区主要是N-H键的一级倍频,反映了大米蛋白中各种丰富的氨基酸信息。因此,试验选取1396.67nm,1467.38nm特征波长图像进行下一步图像特征提取。
(a)第一主成分载荷权重分布 (b)第二主成分载荷权重分布
图7-15 第一、二主成分载荷权重分布图示意图
以安徽产地小町米在1467.38nm波长处的图像进行PCA分解为例,如图7-16所示。从图(c)可以直观地看出,第三主成分图像比第一、二主成分图像能更好地区分背景和大米样本,不仅弱化了放置大米样本的数粒板背景,而且还突出显示大米样本的图像特征。第一、二主成分虽然信息含量比较高,但是此时噪声方差明显大于信号方差,导致信噪比较低,因此,第一、二主成分分量形成的图像质量不如第三主成分图像。为确证实验结果,仍旧选取前三维主成分图像作为下一步分析输入。
(a)第一主成分图像 (b)第二主成分图像 (c)第三主成分图像
图7-16 1467.38 nm波长图像主成分分析示意图
这里采用网格分割法分别对1396.67nm,1467.38nm特征波长图像的第一、二、三主成分图像进行逐粒分割,得到单粒大米样本图像作为样本集,共计2(波长)×3(主成分图像)=6组样本集。每组样本集包括1000个单粒大米样本图像,按4:1的比例划分,得到训练集样本800个和测试集样本200个。
2. 网络结构设计与参数设计
在AlexNet网络的第1层卷积层,应用96个11×11卷积模板对输入图像进行滤波,得到的卷积数据先进行局部响应归一化,然后进行池化传递到第2层卷积层中,应用256个5×5的卷积模板对图像进行卷积后再进行LRN与pooling,第3,4,5层的卷积模板为3×3,且之后的生成与上一层相似。在全连接层中,dropout_ratio为0.5,最后输出为融合的softmax loss,其中训练时参数设置为:学习率0.01,迭代次数5000。
3. AlexNet网络设计与训练
AlexNet网络训练平台:ubuntun16.04+Caffe;CPU:Intel(R) Core(TM) i7-6700k CPU @ 4.00GHZ;内存:16 GB;GPU:NVIDIA GeForce GTX 1070;显存:64 GB。
共计训练得到6个AlexNet网络用于东北/非东北大米产地鉴别模型,测试结果如表7-9所示。
表7-9 基于AlexNet的大米产地鉴别模型训练及测试结果
特征波长/nm | 数据集 | 样本个数 | 第一主成分图像/% | 第二主成分图像/% | 第三主成分图像/% |
1396.67 | 训练集 | 800 | 69 | 76 | 84.5 |
测试集 | 200 | 69 | 76 | 84.5 |
1467.38 | 训练集 | 800 | 82 | 95 | 99.5 |
测试集 | 200 | 82 | 95 | 99.5 |
(1)基于1467.38nm图像的整体识别率高于1396.67nm,尤其是1467.38nm第三主成分图像测试集识别准确率达99.5%,较1396.67nm的最大识别率提高了17.7%。实验结果表明,特征波长筛选可以显著提高模型识别准确率,其中基于1468.37nm建立的东北/非东北大米产地鉴别模型表现尤为突出。1468.37nm谱区附近主要反映的是大米蛋白中各种丰富的氨基酸信息,就本试验结果而言,大米蛋白质能作为区分东北/非东北产地大米的关键性指标之一。
(2)对于同一特征波长图像而言,基于第三主成分图像建立的AlexNet模型识别率最高,第一主成分图像识别率最低:其中基于1467.38nm的第三主成分图像比第一主成分图像识别率提高了21.3%,比第二主成分图像识别率提高了4.7%;基于1396.67nm的第三主成分图像比第一主成分提高了22.5%,比第二主成分提高了11.2%。结果表明,图像特征提取可以有效改善模型的识别准确率,并且佐证了7.3.5.1提到的第三主成分图像能具有更高的信噪比。
本小节应用AlexNet深度学习神经网络训练用于大米产地快速分类的判别模型,最终1467.38nm波长处图像的第三主成分作为输入时,模型识别准确率可达99.5%。结果表明,近红外高光谱技术结合深度学习方法有望为大米产地溯源提供快速、无损、高通量和精细化的检测方法。