仪器信息网APP
选仪器、听讲座、看资讯

​2022年度“创和亿杯全国近红外光谱数据建模竞赛”活动总结和建议

导读:本网特邀请我国分析化学和化学计量学专家、南开大学邵学广教授对本届竞赛进行评述,并对未来竞赛活动提出一些设想。

2022年7月25日-8月20日,中国仪器仪表学会近红外光谱分会成功举办了2022年度“创和亿杯全国近红外光谱数据建模竞赛”,得到广大近红外光谱和化学计量学等相关研究和应用领域同仁的积极响应。本网特邀请我国分析化学和化学计量学专家、南开大学邵学广教授对本届竞赛进行评述,并对未来竞赛活动提出一些设想。

​2022年度“创和亿杯全国近红外光谱数据建模竞赛”活动总结和建议

南开大学邵学广教授

以下为邵学广教授对本次活动的总结:

在算法方面,75位参赛选手尝试了多种方法,包括PLS-DASVMLDA、随机森林、SIMCAKNNLogistic回归等等。几乎所有参赛选手都采用了信号处理和变量选择,方法包括中心化、标准化、MSCSNVSG、小波变换、PCA(降维)、CARS、遗传算法、biPLS、模拟退火等等,也有个别选手根据经验进行了波段选择。但是,很难看出建模方法和信号处理方法对模型预测效果的显著性影响。在排名前24位(预测准确率在60%以上)的参赛选手主要采用了常用的PLS-DASVMLDA,部分选手采用了多个方法的组合,如LDA+SVMPLS-DA+SVM等。值得一提的是,某些参赛选手采用了基于多模型的投票机制进行预测,取得了不错的效果。

本次比赛的数据是烟草样品的光谱数据,其类别是人工判定的。由于类别之间的差异本来就不是很明显,近红外光谱之间相似性很高,很难建立很好的判别模型。从光谱的主成分分布图上可以看出,除第7类(G)外,其他类别的样品严重重叠。采用单一的建模方法很难得到满意的结果。尽管通过模型的优化可以提高预测正确率(真阳性TP样品数),但假阳性(FP)样品数也会随之增加。因此,本次参赛的多数选手已经得到了很好的建模效果,值得庆贺。获得一、二等奖的三位选手预测准确率达到了75%以上,值得特别点赞。但也有三分之一的模型预测准确率在40%以下,说明我们还要加强定性建模方面的学习和训练。中国仪器仪表学会近红外光谱分会拟邀请部分取得优异成绩的选手在全国第九届近红外光谱学术会议期间分享建模经验,值得关注和积极参加。

建议:与去年定量建模比赛一样,建议进一步完善参赛文档的完整性,例如建模方法的描述要尽量详细,从原理到计算过程和相关参数,保证模型的可重复性,有利于建模技术的推广应用。

 


来源于:仪器信息网

打开APP,掌握第一手行业动态
打赏
点赞

相关会议

更多

热门评论

新闻专题

写评论…
0

2022年7月25日-8月20日,中国仪器仪表学会近红外光谱分会成功举办了2022年度“创和亿杯全国近红外光谱数据建模竞赛”,得到广大近红外光谱和化学计量学等相关研究和应用领域同仁的积极响应。本网特邀请我国分析化学和化学计量学专家、南开大学邵学广教授对本届竞赛进行评述,并对未来竞赛活动提出一些设想。

​2022年度“创和亿杯全国近红外光谱数据建模竞赛”活动总结和建议

南开大学邵学广教授

以下为邵学广教授对本次活动的总结:

在算法方面,75位参赛选手尝试了多种方法,包括PLS-DASVMLDA、随机森林、SIMCAKNNLogistic回归等等。几乎所有参赛选手都采用了信号处理和变量选择,方法包括中心化、标准化、MSCSNVSG、小波变换、PCA(降维)、CARS、遗传算法、biPLS、模拟退火等等,也有个别选手根据经验进行了波段选择。但是,很难看出建模方法和信号处理方法对模型预测效果的显著性影响。在排名前24位(预测准确率在60%以上)的参赛选手主要采用了常用的PLS-DASVMLDA,部分选手采用了多个方法的组合,如LDA+SVMPLS-DA+SVM等。值得一提的是,某些参赛选手采用了基于多模型的投票机制进行预测,取得了不错的效果。

本次比赛的数据是烟草样品的光谱数据,其类别是人工判定的。由于类别之间的差异本来就不是很明显,近红外光谱之间相似性很高,很难建立很好的判别模型。从光谱的主成分分布图上可以看出,除第7类(G)外,其他类别的样品严重重叠。采用单一的建模方法很难得到满意的结果。尽管通过模型的优化可以提高预测正确率(真阳性TP样品数),但假阳性(FP)样品数也会随之增加。因此,本次参赛的多数选手已经得到了很好的建模效果,值得庆贺。获得一、二等奖的三位选手预测准确率达到了75%以上,值得特别点赞。但也有三分之一的模型预测准确率在40%以下,说明我们还要加强定性建模方面的学习和训练。中国仪器仪表学会近红外光谱分会拟邀请部分取得优异成绩的选手在全国第九届近红外光谱学术会议期间分享建模经验,值得关注和积极参加。

建议:与去年定量建模比赛一样,建议进一步完善参赛文档的完整性,例如建模方法的描述要尽量详细,从原理到计算过程和相关参数,保证模型的可重复性,有利于建模技术的推广应用。