仪器信息网APP

选仪器、听讲座、看资讯

立即体验

当前位置：仪器社区 >光谱 > 近红外光谱（NIR） > 帖子详情

近红外光谱快速检测人血白蛋白原液蛋白质含量的建模研究

qindong413

2017/09/15

私聊

近红外光谱（NIR）

近红外光谱快速检测人血白蛋白原液蛋白质含量的建模研究
摘要：本研究建立近红外光谱定量分析模型，对浓缩液蛋白含量进行快速及有效的测定。在实验室条件下配置不同浓度的蛋白样品，建立用于蛋白含量测定的定量分析模型，以实现浓缩液蛋白含量的快速及有效的判断。
关键词：近红外光谱分析技术；人血白蛋白；定量分析模型
1材料
1.1 试剂
供试品：人血白蛋白原液；生理盐水。
1.2 仪器和软件
AntarisⅡ傅里叶变换近红外光谱仪（美国Thermo Fisher scientific公司）；内径4×50 mm的玻璃小管（Kimble Chase，德国）； MATLAB 2015a（美国Mathworks公司）；PLS_Toolbox工具箱（美国Eigenvector Research公司）。
2方法
2.1 蛋白含量的测定及样品溶液的配制
2.1.1 蛋白质含量的测定
取生产过程中超滤浓缩后的人血白蛋白原液为实验供试品，用半微量凯氏定氮法测定蛋白质浓度，浓度应不低于26.5%。
2.1.2样品溶液的配制
根据试验需要，将供试品溶液用生理盐水进行稀释得到多个不同蛋白质浓度的实验样品。
2.2 样品光谱的采集
本实验使用AntarisⅡ傅里叶变换近红外光谱仪，采用透射分析模块，采用仪器自带的RESULT-Intergration软件编写采集光谱的工作流程。光谱分辨率为8 cm-1，扫描范围为10000-4000 cm-1，扫描次数为32次，用偏最小二乘回归（Partial Least Squares Regression, PLSR）方法建立定量模型。
2.3 校正集和验证集的划分
校正集中的样品应包含使用该模型预测的未知样品的所有化学成分。且校正集中的样品的化学成分浓度范围应覆盖使用该模型预测的未知样品中可能存在的浓度范围。而且验证集中的样品应涵盖使用模型分析的待测样品中的化学组成，测定浓度范围也应尽可能覆盖该模型分析的待测样品可能存在的浓度范围，且分布均匀。所以，需要选择合理的样品集划分方法，以提高模型的应用性及准确性。
2.4 预处理方法的选择
为了消除噪声和产生的基线漂移，提高模型的预测能力，得到稳健的模型，需要在模型建立前对样品的原始光谱进行预处理，常用的谱图处理方法有均值中心化（Mean Center）、标准化（Auto scale）、平滑和导数等。导数是常用的基线校正和光谱分辨预处理方法，但也会放大噪声的信号，降低光谱的信噪比；为消除光谱变换带来的噪声，常对原始光谱进行平滑后求导，能有效提高信噪比；均值中心化可增大不同样品之间的差异，从而使模型的稳健性和预测能力得到提高；标准化可以使光谱中所有波长变量的权重相同，增加光谱之间差异化，适合于低浓度成分的建模。
本研究中对Auto scale、Mean Center、一阶导数（First Derivative，FD）SG13点平滑、二阶导数（Second Derivative，SD）SG13点平滑等预处理方法进行了考察，以模型的RMSEP为指标，选择最合适的预处理方法。
2.5 光谱区间的选择
近红外光谱信息十分复杂，在建立校正模型的过程中选择有效的建模变量是十分必要的。本研究选用间隔偏最小二乘法（Interval Partial Least Squares Regression, iPLS)），以RMSECV值为评价标准，选择变量区间以建立最佳的定量模型。
3 实验结果
3.1 蛋白质含量的测定结果
采用半微量凯氏定氮法进行蛋白含量的测定，测定得到17个样品的蛋白含量。用生理盐水稀释样品，共得到49个不同蛋白质含量的样品。
3.2 样品的原始光谱
图1为49个蛋白样品的原始光谱，原始光谱图中可见各样品的光谱差异不明显，因此需要使用化学计量学方法对样品光谱进行处理。

图1 样品原始光谱图
3.3 校正集和验证集的划分结果
本研究采用Kennard-Stone（K-S）分类的算法，按照2:1的比例进行样品集的划分，划分为33个校正集样品和16个验证集样品。
图2为校正集样品和验证集样品的主成分得分图，图中灰色点为校正集样品，红色点为验证集样品，从主成分得分图中可以看出，校正集样品和验证集样品分布比较均匀，且验证集样品比较均匀的分布在校正集样品之间，符合理想校正集和验证集的要求。

图2 样品主成分得分图
3.4 光谱预处理的结果
建模过程中，分别采用各种方法对光谱数据进行预处理，包括标准化（Auto scale）、均值中心化（Mean Center）、一阶导数（First Derivative，FD）、SG13点平滑、二阶导数（Second Derivative，SD）等处理方法，以RMSEP作为评价模型的参数，通过对比预处理后的建模结果，选出最合适的预处理方法。表1列出了预处理后各模型的评价参数，通过比对，可以较直观的选出一阶导数SG13点平滑和Mean Center的组合为最佳预处理方法。图3所示为用经过一阶导数SG13点平滑和Mean Center 预处理后的光谱所建立的模型的结果，从图3中可以看出，建模效果较好，预测能力较高，Rc2=0.994，Rp2=0.986，RMSEC=0.1993%，RMSEP=0.2585%，RMSECV=0.2518%。
表1 不同预处理后各模型参数

FD+SG：一阶导数+SG13点平滑
SD+SG：二阶导数+SG13点平滑

图3 一阶导数+SG平滑+ Mean Center
3.5 光谱区间的选择结果
通过筛选光谱区间，可以选择与样品白蛋白含量相关性大的光谱变量进行建模，去掉大量无关信息，减少模型的计算量，使得模型的效果更好。本实验采用iPLS进行变量的选择。将光谱进行SG13点平滑+一阶导数+ Mean Center预处理后，分别采用Forward iPLS和Reverse iPLS方法选择最佳的光谱区间，改变窗口宽度，分别选择最佳变量，以RMSECV为标准选择谱区。
3.5.1Forward iPLS选择波段
采用FiPLS的方法以RMSECV为标准选取最佳的光谱区间，分别选择50、100、200个变量进行自动选择，如表2所示窗口宽度为100个变量时建模结果较佳，结果图4所示。
表2 Forward iPLS结果

图4 Forward iPLS波段结果图

由图4中可以看出，绿色部分为建模的波段，图5为建模预测结果图。

图5 Forward iPLS建模结果图
3.5.2 Reverse iPLS选择波段
采用Reverse iPLS的方法选取最佳的光谱区间，同样，分别选择50、100、200个变量进行自动选择，如表3所示窗口宽度为50个变量时建模结果较佳，波段选择结果如图6所示。
表3 Reverse iPLS结果

图6 Reserve iPLS 选波段结果图

如图6中所示，其中绿色部分为建模波段，图7为预测结果。

图7 Reserve iPLS 建模结果图

通过采用Forward iPLS和Reservei PLS波段选择方法建立PLSR模型，经过两种方法中选择的最优变量的对比（见表4），选择窗口宽度为100变量的Forward iPLS变量选择方法建立的模型最佳。最终建立的PLSR模型结果：模型的参数为Rc2=0.997，Rp2=0.987，均方根误差RMSEC=0.1394%，RMSEP=0.2560%，RMSECV= 0.1831%，建模结果较好。
表4不同变量选择方法的建模结果
3.6 一级数据与预测值比较
对16个验证集样品的传统方法获得的蛋白含量和NIRS蛋白含量预测值进行偏差分析，结果见表5所示。蛋白含量一级数据和预测值的平均偏差和相对平均偏差的计算公式见式1和式2，蛋白含量NIRS的预测值和一级数据间的平均偏差为0.17，相对平均偏差为0.81，两者都较低，说明了NIRS和传统的凯氏定氮法结果相差较小，表明NIRS用于蛋白含量测定的准确性和可靠性。
式中yi, actual为传统凯氏定氮方法得到的一级数据值，yi, predicted为NIRS得到的预测值，n为验证集样品数量。
表5 验证集样品方法结果比较表
3.7 预测值的精密度
通过重复测量光谱计算，建立的蛋白含量校正模型的预测精密度。随机选取验证集样品中的1号、15号、35号、42号和47号样品，每个样品重复测量10次，然后采用建立的蛋白含量模型采集以上样品的光谱，得到样品的预测值。然后计算每个样品预测值的平均值、标准偏差和相对标准偏差，用这些指标来表示预测的精密度，结果见表6。如表中所示， RSD值均在1.0%以下，远远低于5.0%，证明了模型的精密度良好。
表6 模型精密度考察结果
4结论和讨论
本研究建立了人血白蛋白生产过程中蛋白含量测定的近红外定量模型，用于人血白蛋白原液蛋白质含量的测定，为下一步原液的生产配制提高依据。首先，取生产过程中的样品17个，用凯氏定氮法测得各个样品的蛋白含量，然后在实验室条件下，用生理盐水配制成49个不同浓度的蛋白样品。对49个样品进行近红外光谱的采集，然后对样品进行校正集和验证集的划分，对光谱进行预处理方法和不同的变量选择方法进行了考察；采用Kennard-Stone（K-S）分类的算法，按照2：1的比例进行样品集的划分，优先选出Mean Center +一阶导数SG13点平滑的预处理方法，并采用窗口宽度为100变量的Forward iPLS变量选择方法选出变量区间，最终建立最佳的近红外定量模型。最终建立的PLSR模型结果：Rc2=0.997，Rp2=0.987，均方根误差RMSEC=0.1394%，RMSEP=0.2560%，RMSECV= 0.1831%。除此之外，对模型进行了重复性考察，从结果可知模型具有较好的重复性。
在模型的建立中，选用Kennard-Stone（K-S）分类的算法进行样品集的划分，通过PCA分析得到具有代表性的校正集和验证集样品。在预处理方法的选择中，分别选用Autoscale、Mean Center、SG平滑一阶导数以及各预处理方法的组合进行预处理方法的考察，其中SG平滑中，不同的窗口宽度会对平滑产生不同的效果，窗口宽度越宽平滑效果越好，但也会丢掉有用的信息，经过考察选择13点平滑时结果较佳。
参考文献
吴清, 周法根. 脑梗死治疗中白蛋白应用价值的探讨 . 心脑血管病防治, 2005, 5(2): 49-50.
王华平, 米宇俊. 人血白蛋白治疗肾综合征出血热低血压休克患者疗效观察 . 医师进修杂志, 2001, 24(8):20-21.
郑红光, 杨志藩, 关欣. 静脉输注人血白蛋白对肾病综合征的正负临窗效应观察 . 中国实用内科杂志, 2003, 23(1):25-27.
刘丽萍. 人血白蛋白在肝硬化资料中的应用 . 中国医院用药评价与分析, 2013, 13(5):388-390.
常花蕾, 史涛. 人血白蛋白临床不合理应用及改进措施 . 中国药物应用与监测, 2014, 11(1): 52-54.
孙世光, 余明莲, 王建民, 张国辉. 人血白蛋白的临床应用误区及其对策 .解放军药学学报, 2009, 25(4):366-368.

分
该帖子已被版主-秋月芙蓉加10积分，加2经验;加分理由:原创鼓励