仪器信息网APP
选仪器、听讲座、看资讯

关于近红外光谱分析网络化应用研究的思考

导读:为了推进近红外光谱分析网络化应用,本文基于烟草近红外光谱网络化应用的实践经验,与大家探讨近红外光谱分析网络化应用研究的一些思路。

近几年以来,在国内烟草行业,随着烟草企业的联合重组与整合,对烟叶原料品类多样化提出了更高的要求,为了统筹优化与合理应用原料提供技术支持,以Web Service架构的“互联网+近红外光谱分析”的基本模式,于2015年,云南中烟构建的以原料研究为导向的烟叶原料近红外分析网络系统上线使用,通过六年多来的运行,实现了原料近红外分析检测数据的交换和共享,对评估烤烟收购质量,合理组配复烤模块单元,提供了即时的数据支持;在产品开发和产品维护方面,针对性使用烟叶原料,研发新产品配方、优化配伍和维护产品质量稳定,发挥了积极的辅助作用,特别是从“人、机、料、环、法”等方面,依据相应的技术标准(包含近红外校正模型建立、验证、应用和维护等),规范了网点的近红外光谱实验室,多年来,积累了初烤烤烟、复烤片烟和库存片烟等烟叶原料近红外分析检测大量的数据资产。系统功能基本达到了设计预期。然而,为了进一步探索分析烟叶原料品质类别、配方模块(单元)相似性、质量变化趋势和规律,在综合利用近红外光谱数据、理化性质数据和一些与质量相关的半结构化非结构化数据时,由于集成的常规性质数据有限,满足不了质量表征的需求,加之,在网络平台上面对大量的数据处理分析,传统的化学计量学定性定量建模计算模式难于适应,制约了多变量数据(如光谱)的深入挖掘和数据挖掘的效率。为了推进近红外光谱分析网络化应用,本文基于烟草近红外光谱网络化应用的实践经验,抛砖引玉,与大家探讨近红外光谱分析网络化应用研究的一些思路。

1、近红外光谱标准化

烟草可视为一种多成分复杂化学体系的天然作物,迄今为止,从烟草中鉴定出来的化学成分达5500多种,烟草质量与这些化学成分的相关性至今尚未全部研究清楚,通常采用为数有限的常规化学成分指标(如烟碱、总氮、总糖、还原糖、蛋白质、钾、氯和灰分等),评估烟草整体质量特征时仍存在不足,普遍认为,烟草在燃吸时的整体质量特征是烟草中这些复杂成分相互协同作用的结果。在近红外光谱定量分析中,烟草近红外光谱包含大量潜在的物质组成信息尚未充分利用,不同质量特征的烟草具有自身的特征近红外光谱,应用适当的化学计量学模式识别方法,如PLS-DA、SIMCA和SVM,结合近红外光谱挖掘烟草的整体质量特征归属,对寻求质量特征相似或相近的替代原料,保障规模化产品制造稳定的原料供给有着重要的意义。

每一个网点的近红外光谱实验室是数据“发源地”,数据质量决定了将来数据的应用价值。实验室除了从“人、机、料、环、法”等方面,依据相应的规范(包含近红外光谱测量、校正模型建立、验证、应用和维护的技术标准等)要求运行之外,显然,在网络环境里光谱数据采集的“标准化”就特别重要。这就要求入网的近红外光谱仪必须具有优良的光学特性,仪器之间的差异最小,保证对不同产区网点的近红外光谱仪测量的光谱数据进行分析时,仪器的背景差异不会造成明显的影响,但事实上,同一厂家同一型号同一个批次生产的光谱仪都很难做到这一点,可以说,近红外光谱仪之间的差异是进行网络数据共享,挖掘光谱数据信息存在的问题之一。一是借鉴模型转移的化学计量学方法,根据仪器之间的光谱差异,建立一个光谱的数学关系,然后依据这个数学关系,“软拷贝”实现光谱数据采集的标准化;二是仪器厂商提升仪器的制造水平,降低仪器之间的差异,特别是不同批次生产的仪器之间的差异,才能使其测量的光谱差异最小,不会对后续的光谱分析造成明显的影响,也就是说用一台仪器采集的光谱建立的模型预测同一组样品在本台仪器上测量的光谱,与使用本台仪器的模型预测另一台仪器测量同是一组样品的光谱所得到的结果无明显的差异,在这两台仪器之间就无需建立光谱的数学关系,即简单的“硬拷贝”就可实现网络平台光谱数据采

集的标准化,要义见图1示意。在网络环境中的光谱仪可视为一个“网络传感器”,对传感器的技术要求在朝着高质量、高精度、小型化、低功耗和智能化等方向演进,对网络用户来说,期待仪器制造商生产性能一致性优良的光谱仪,乃是尤为理想的解决方案。

关于近红外光谱分析网络化应用研究的思考


图1 不同的光谱仪采集同一组样品,可得到基本相同的光谱,即“一个世界,一个标准”

2、云化近红外光谱分析网络平台

云计算服务是一种集中式服务,所有数据都通过网络传输到云计算中心进行处理。资源的高度集中与整合使得云计算具有很高的通用性,然而,面对网络设备和数据的爆发式增长,边缘计算相比于云计算模型,能够更加迅速、可靠和节能地响应用户需求,数据在本地处理也可以提升用户隐私保护程度。另外,边缘计算也减小了对网络的依赖,在离线状态下也能够提供基础业务服务。

通过云化近红外光谱分析网络平台,集成不同的烟草产地生态环境、等级、品种以及相应的近红外光谱、理化性质(包含烟叶的形态形状图像,化学成分指标等)数据是其任务之一,便于分析挖掘与感官质量相关的特征信息,服务于烟叶原料的精细化种植及科学合理应用,在近红外光谱定性、定量建模或后续的各种数据挖掘实际应用中,是基于“中心云”或“边缘云”的数据资源进行的。有时会用到中心云的数据资源,如对各大产区烟草质量进行整体性比照分析,探索各大烟区烟草质量特征,支持原料生产基地系统规划;有时会用到边缘云的数据资源,如对某个产区烟草历时性数据作趋势分析,探索烟草质量的稳定性与变化趋向,辅助基层植烟区改进或调整生产措施。所以,面向服务对象的规模、复杂程度合理部署、云化近红外光谱分析网络平台就尤为重要,有利于集约化网络资源,提升数据的分析处理以及数据挖掘的效率,见图2示意。

关于近红外光谱分析网络化应用研究的思考

图2. 近红外光谱分析平台云化示意图

3、构建云计算自动化(智能)建模服务系统

通常,在建立样本数量大于3000个以上的近红外校正模型时,样本量越大,运算速度越慢,对计算机性能的要求越就越高,且在建模过程中,如组织训练集或校正样本集、清洗异常样本、筛选适宜的建模数据等等,基本是基于“文件夹”来操作完成的,对网络环境中的大体量的数据资源,因缺乏探索性数据分析的网络计算手段而难于被充分利用,传统的建模方式和流程效率低、适应性差。基于网络资源进行化学计量学网络计算,现代云计算技术为化学计量学计算研究搭建了高灵活性平台。如何选择诸如Hadoop、Spark等生态圈技术,通过分布式计算提升定性、定量建模效率,并结合长期积累的建模经验、领域知识(包含相关的波长或波段选择、光谱预处理方法及其经验参数设置、模型误差水平控制等),实现自动化建模,这是我们要联合网络计算专家实现近红外光谱分析网络化云计算所要解决的问题。显然,把传统的近红外光谱定量、定性分析涉及的训练集样本或校正集样本的筛选、光谱的预处理、建模等化学计量学方法(算法)网络化,开发分布式计算的化学计量学软件系统(当然,这也是数据挖掘的重要组成部分),共享应用网络软、硬件资源优势,平衡计算负载,实现近红外光谱分析云计算,可能是一种比较好的解决思路,这无论是对近红外光谱定性定量分析的普通用户,还是对近红外光谱数据进行深度挖掘的高级用户,都具有较好的便利性和实用性。

4、研发基于特征模型的网络搜索引擎

基于多维质量特征数据(结构化和非结构化数据),诸如烟草产地生态、等级、品种、理化性质指标、近红外光谱、形态形状图像等,选取不同的特征,通过模式识别技术建立用户预期的质量特征类模型,然后应用“基于特征模型的网络搜索引擎+类模型”搜索网络共享资源(中心云或边缘云)中具有相近或相似质量特征的样本,也就是在网络共享资源中“淘宝”,寻求在产品制造中烟叶原料的替代应用,保障产品质量的稳定。搜索引擎形式类似“百度”或“Google”。这里以烟草近红外光谱定性分析的应用举例说明,我们需要什么样功能的“搜索引擎”,近红外光谱包含丰富的化学物质结构信息,且近红外光谱与物质组成及含量相关,不同属性、特征的烟草样品具有相应的特征近红外光谱,通过结合烟草领域知识,采用适宜的化学计量学模式识别方法(如基于PCA的各种分类算法、ANN或SVM等)来提取烟草样品近红外光谱特征信息,训练能表征质量特征的近红外光谱类模型,应用验证通过的类模型和待测烟草样品近红外光谱便可预测待测样品的归属类别或特征。常规近红外光谱定性预测分析是基于“文件夹+类模型”进行操作的,而在网络环境中,近红外光谱定性预测分析必须网络化,预测是在云化的近红外光谱分析网络平台上,应用“基于特征模型的网络搜索引擎+类模型”寻找“隐藏”在“中心云”或“边缘云”中的数据资源(见图3示意),它承担着大体量的网络计算。基于特征模型的网络搜索引擎是“云计算自动化(智能)建模服务系统”预测分析网络化的延展,可简单视为是一个“网络预测器”,当然,这个“网络预测器”需要网络计算专家和近红外光谱化学计量学算法专家联手研发。

关于近红外光谱分析网络化应用研究的思考

图3. 近红外光谱分析网络化应用示意图

5、其它

针对不同应用场景或职能部门,利用中心云数据或边缘云数据进行一些简单的在线统计分析计算,并对结果进行可视化展示,如原料生产部门可快速实现对烟叶质量指标的比较,分析烟叶质量的稳定性、质量变化走势等。开发一些满足不同应用场景的APP、微信小程序、公众号等(见图3示意),也是一项值得开展的工作。

(作者:王家俊 云南中烟工业有限责任公司)


来源于:仪器信息网

打开APP,掌握第一手行业动态
打赏
点赞

相关会议

更多

热门评论

新闻专题

写评论…
0

近几年以来,在国内烟草行业,随着烟草企业的联合重组与整合,对烟叶原料品类多样化提出了更高的要求,为了统筹优化与合理应用原料提供技术支持,以Web Service架构的“互联网+近红外光谱分析”的基本模式,于2015年,云南中烟构建的以原料研究为导向的烟叶原料近红外分析网络系统上线使用,通过六年多来的运行,实现了原料近红外分析检测数据的交换和共享,对评估烤烟收购质量,合理组配复烤模块单元,提供了即时的数据支持;在产品开发和产品维护方面,针对性使用烟叶原料,研发新产品配方、优化配伍和维护产品质量稳定,发挥了积极的辅助作用,特别是从“人、机、料、环、法”等方面,依据相应的技术标准(包含近红外校正模型建立、验证、应用和维护等),规范了网点的近红外光谱实验室,多年来,积累了初烤烤烟、复烤片烟和库存片烟等烟叶原料近红外分析检测大量的数据资产。系统功能基本达到了设计预期。然而,为了进一步探索分析烟叶原料品质类别、配方模块(单元)相似性、质量变化趋势和规律,在综合利用近红外光谱数据、理化性质数据和一些与质量相关的半结构化非结构化数据时,由于集成的常规性质数据有限,满足不了质量表征的需求,加之,在网络平台上面对大量的数据处理分析,传统的化学计量学定性定量建模计算模式难于适应,制约了多变量数据(如光谱)的深入挖掘和数据挖掘的效率。为了推进近红外光谱分析网络化应用,本文基于烟草近红外光谱网络化应用的实践经验,抛砖引玉,与大家探讨近红外光谱分析网络化应用研究的一些思路。

1、近红外光谱标准化

烟草可视为一种多成分复杂化学体系的天然作物,迄今为止,从烟草中鉴定出来的化学成分达5500多种,烟草质量与这些化学成分的相关性至今尚未全部研究清楚,通常采用为数有限的常规化学成分指标(如烟碱、总氮、总糖、还原糖、蛋白质、钾、氯和灰分等),评估烟草整体质量特征时仍存在不足,普遍认为,烟草在燃吸时的整体质量特征是烟草中这些复杂成分相互协同作用的结果。在近红外光谱定量分析中,烟草近红外光谱包含大量潜在的物质组成信息尚未充分利用,不同质量特征的烟草具有自身的特征近红外光谱,应用适当的化学计量学模式识别方法,如PLS-DA、SIMCA和SVM,结合近红外光谱挖掘烟草的整体质量特征归属,对寻求质量特征相似或相近的替代原料,保障规模化产品制造稳定的原料供给有着重要的意义。

每一个网点的近红外光谱实验室是数据“发源地”,数据质量决定了将来数据的应用价值。实验室除了从“人、机、料、环、法”等方面,依据相应的规范(包含近红外光谱测量、校正模型建立、验证、应用和维护的技术标准等)要求运行之外,显然,在网络环境里光谱数据采集的“标准化”就特别重要。这就要求入网的近红外光谱仪必须具有优良的光学特性,仪器之间的差异最小,保证对不同产区网点的近红外光谱仪测量的光谱数据进行分析时,仪器的背景差异不会造成明显的影响,但事实上,同一厂家同一型号同一个批次生产的光谱仪都很难做到这一点,可以说,近红外光谱仪之间的差异是进行网络数据共享,挖掘光谱数据信息存在的问题之一。一是借鉴模型转移的化学计量学方法,根据仪器之间的光谱差异,建立一个光谱的数学关系,然后依据这个数学关系,“软拷贝”实现光谱数据采集的标准化;二是仪器厂商提升仪器的制造水平,降低仪器之间的差异,特别是不同批次生产的仪器之间的差异,才能使其测量的光谱差异最小,不会对后续的光谱分析造成明显的影响,也就是说用一台仪器采集的光谱建立的模型预测同一组样品在本台仪器上测量的光谱,与使用本台仪器的模型预测另一台仪器测量同是一组样品的光谱所得到的结果无明显的差异,在这两台仪器之间就无需建立光谱的数学关系,即简单的“硬拷贝”就可实现网络平台光谱数据采

集的标准化,要义见图1示意。在网络环境中的光谱仪可视为一个“网络传感器”,对传感器的技术要求在朝着高质量、高精度、小型化、低功耗和智能化等方向演进,对网络用户来说,期待仪器制造商生产性能一致性优良的光谱仪,乃是尤为理想的解决方案。

关于近红外光谱分析网络化应用研究的思考


图1 不同的光谱仪采集同一组样品,可得到基本相同的光谱,即“一个世界,一个标准”

2、云化近红外光谱分析网络平台

云计算服务是一种集中式服务,所有数据都通过网络传输到云计算中心进行处理。资源的高度集中与整合使得云计算具有很高的通用性,然而,面对网络设备和数据的爆发式增长,边缘计算相比于云计算模型,能够更加迅速、可靠和节能地响应用户需求,数据在本地处理也可以提升用户隐私保护程度。另外,边缘计算也减小了对网络的依赖,在离线状态下也能够提供基础业务服务。

通过云化近红外光谱分析网络平台,集成不同的烟草产地生态环境、等级、品种以及相应的近红外光谱、理化性质(包含烟叶的形态形状图像,化学成分指标等)数据是其任务之一,便于分析挖掘与感官质量相关的特征信息,服务于烟叶原料的精细化种植及科学合理应用,在近红外光谱定性、定量建模或后续的各种数据挖掘实际应用中,是基于“中心云”或“边缘云”的数据资源进行的。有时会用到中心云的数据资源,如对各大产区烟草质量进行整体性比照分析,探索各大烟区烟草质量特征,支持原料生产基地系统规划;有时会用到边缘云的数据资源,如对某个产区烟草历时性数据作趋势分析,探索烟草质量的稳定性与变化趋向,辅助基层植烟区改进或调整生产措施。所以,面向服务对象的规模、复杂程度合理部署、云化近红外光谱分析网络平台就尤为重要,有利于集约化网络资源,提升数据的分析处理以及数据挖掘的效率,见图2示意。

关于近红外光谱分析网络化应用研究的思考

图2. 近红外光谱分析平台云化示意图

3、构建云计算自动化(智能)建模服务系统

通常,在建立样本数量大于3000个以上的近红外校正模型时,样本量越大,运算速度越慢,对计算机性能的要求越就越高,且在建模过程中,如组织训练集或校正样本集、清洗异常样本、筛选适宜的建模数据等等,基本是基于“文件夹”来操作完成的,对网络环境中的大体量的数据资源,因缺乏探索性数据分析的网络计算手段而难于被充分利用,传统的建模方式和流程效率低、适应性差。基于网络资源进行化学计量学网络计算,现代云计算技术为化学计量学计算研究搭建了高灵活性平台。如何选择诸如Hadoop、Spark等生态圈技术,通过分布式计算提升定性、定量建模效率,并结合长期积累的建模经验、领域知识(包含相关的波长或波段选择、光谱预处理方法及其经验参数设置、模型误差水平控制等),实现自动化建模,这是我们要联合网络计算专家实现近红外光谱分析网络化云计算所要解决的问题。显然,把传统的近红外光谱定量、定性分析涉及的训练集样本或校正集样本的筛选、光谱的预处理、建模等化学计量学方法(算法)网络化,开发分布式计算的化学计量学软件系统(当然,这也是数据挖掘的重要组成部分),共享应用网络软、硬件资源优势,平衡计算负载,实现近红外光谱分析云计算,可能是一种比较好的解决思路,这无论是对近红外光谱定性定量分析的普通用户,还是对近红外光谱数据进行深度挖掘的高级用户,都具有较好的便利性和实用性。

4、研发基于特征模型的网络搜索引擎

基于多维质量特征数据(结构化和非结构化数据),诸如烟草产地生态、等级、品种、理化性质指标、近红外光谱、形态形状图像等,选取不同的特征,通过模式识别技术建立用户预期的质量特征类模型,然后应用“基于特征模型的网络搜索引擎+类模型”搜索网络共享资源(中心云或边缘云)中具有相近或相似质量特征的样本,也就是在网络共享资源中“淘宝”,寻求在产品制造中烟叶原料的替代应用,保障产品质量的稳定。搜索引擎形式类似“百度”或“Google”。这里以烟草近红外光谱定性分析的应用举例说明,我们需要什么样功能的“搜索引擎”,近红外光谱包含丰富的化学物质结构信息,且近红外光谱与物质组成及含量相关,不同属性、特征的烟草样品具有相应的特征近红外光谱,通过结合烟草领域知识,采用适宜的化学计量学模式识别方法(如基于PCA的各种分类算法、ANN或SVM等)来提取烟草样品近红外光谱特征信息,训练能表征质量特征的近红外光谱类模型,应用验证通过的类模型和待测烟草样品近红外光谱便可预测待测样品的归属类别或特征。常规近红外光谱定性预测分析是基于“文件夹+类模型”进行操作的,而在网络环境中,近红外光谱定性预测分析必须网络化,预测是在云化的近红外光谱分析网络平台上,应用“基于特征模型的网络搜索引擎+类模型”寻找“隐藏”在“中心云”或“边缘云”中的数据资源(见图3示意),它承担着大体量的网络计算。基于特征模型的网络搜索引擎是“云计算自动化(智能)建模服务系统”预测分析网络化的延展,可简单视为是一个“网络预测器”,当然,这个“网络预测器”需要网络计算专家和近红外光谱化学计量学算法专家联手研发。

关于近红外光谱分析网络化应用研究的思考

图3. 近红外光谱分析网络化应用示意图

5、其它

针对不同应用场景或职能部门,利用中心云数据或边缘云数据进行一些简单的在线统计分析计算,并对结果进行可视化展示,如原料生产部门可快速实现对烟叶质量指标的比较,分析烟叶质量的稳定性、质量变化走势等。开发一些满足不同应用场景的APP、微信小程序、公众号等(见图3示意),也是一项值得开展的工作。

(作者:王家俊 云南中烟工业有限责任公司)