中文摘要: 目的 利用近红外光谱分析技术,建立原液中总蛋白及纤原含量的检测模型,实现原液的快速检定。 方法 选取层析过程流穿液为研究对象,收集流穿液制备了一系列不同浓度的样品,共60个,用透射模块采集其近红外光谱。建模过程中,首先用K-S方法将样品划分为40个校正集和20个验证集,简历模型,用R2、RMSEC、RMSECV、RMSEP对模型进行评价。 结果 建立模型的各项参数为:R2=0.995,RMSEC=0.1911,RMSECV=0.2245,RMSEP=0.1662。 结论 所建立的方法,可以快速准确的对层析流穿液的蛋白含量进行在线检测,如果应用于生产,还可以对层析过程进行饱和度分析,确定最优的层析方案。
关键词:近红外光谱分析;人纤维蛋白原;层析流穿液; 蛋白质含量
人纤维蛋白原(HumanFibrinogen,Fg)是血浆的主要成分,含量高达2~4 g/L。在人凝血反应的最后阶段在凝血酶与人凝血因子ⅩⅢ、Ca2+作用下形成纤维蛋白凝胶,将血液有形成分包绕其中,达到止血的目的。在纤维蛋白原的生产过程中,通过层析收集流穿液进行下一步的制备。当离子交换树脂吸附饱和时停止收集,目前填料饱和度的判断通过检测流穿液中纤原的纯度来进行,采用凯氏定氮法分别检测原液中总蛋白的含量,进而计算得出。在制药领域,NIRS作为一种重要的PAT工具,已成功用于药物的原辅料质量评价、关键过程的监测和控制、成品的快速放行和质量检测等各个环节,为保证产品质量、降低生产成本、革新生产过程发挥了重要的作用。利用近红外光谱分析技术,建立原液中总蛋白及纤原含量的检测模型,可以实现原液的快速检定以及在线监测,提高生产效率。
1实验材料与仪器
1.1试剂
纤维蛋白原层析流穿液(山东泰邦生物制品有限公司,批号201409S05,蛋白含量9.70mg/mL);注射用水。
1.2仪器
Antaris Ⅱ傅里叶变换近红外光谱仪(美国Thermo Fisher scientific公司),附件配置:透射检测器,1mm光程玻璃比色皿;Result光谱采集软件;Matlab 2009化学计量学软件(美国Mathworks公司)。
2方法
2.1样品制备
在纤原的生产过程中,对层析时的流穿液留样。按照不同的比例用注射用水将流穿液稀释,得到含有不同蛋白含量的样品共60个。
2.2近红外光谱采集
每个样品取适量装于光程4mm的比色皿中,采集其透射光谱,扫描范围为10000-4000cm-1,分辨率为8 cm-1,扫描次数32次,每小时扫描一次背景。
2.3校正集和验证集的划分
采用K-S分类的方法将样品划分为校正集和验证集,二者的比例为2:1,得到40个校正集样品和20个验证集样品。
2.4预处理方法的选择
本研究考察了Autoscale、均值中心化、一阶导数,以及两种方法联用等预处理方法对光谱数据进行处理后,对建模结果的影响,并以此选择最佳的预处理方法。
2.5光谱区间的选择
本研究中分别采用iPLS和GA筛选光谱变量,使用选择的谱区建立PLS模型,并依据模型结果的优劣确定最终使用的变量选择方法,从而更好地提高模型的性能。
2.6重复性考察
随机挑选3个验证集样品,每个样品重复测定10次光谱,用所建立的定量模型预测其蛋白含量,计算每个样品预测值的平均值和标准偏差。用χ2检验考察这些重复性标准偏差是否属于同一总体,若属于,则近红外方法的重复性按z××σ算出。
3.结果
3.1样品蛋白含量的分布
共制备60个样品,其蛋白含量范围在0.2425 mg·mL-1~9.7000 mg·mL-1,且分布较为均匀。
3.2样品的近红外光谱
采集的60个样品的原始透射光谱如图1所示。
图1 样品的原始近红外光谱图
3.3样品校正集和验证集划分结果
采用K-S分类方法将样品进行划分,选择40个样品作为校正集,20个样品作为验证集。如图2所示,样品均匀的分布在主成分空间中,其中灰色的点代表校正集样品,红色的点代表验证集的样品,验证集样品较为均匀的分布在校正集样品之中,满足划分的要求。
图2 样品集PC1&PC2得分图
3.4预处理方法的选择结果
分别采用Autoscale、均值中心化、一阶导数、Autoscale+一阶导数和均值中心化+一阶导数的方法对光谱数据进行预处理,然后建立PLS定量模型。用不同预处理方法处理后的光谱数据建模所得的模型参数如表1所示,通过对比发现,光谱经过Autoscale处理后,所建立的模型各项参数都是最好的,R2=0.994,RMSEC=0.1495,RMSECV=0.5671,RMSEP=0.3016,所以确定Autoscale为最佳的预处理方法。图3为用此法预处理后的光谱数据在全波段建立的PLS模型。
表1 不同预处理方法对建模的影响
预处理方法 | R2 | RMSEC | RMSECV | RMSEP | PCs |
原始光谱 | 0.957 | 0.4892 | 0.6743 | 0.6945 | 6 |
Autoscale | 0.994 | 0.1495 | 0.5671 | 0.3016 | 7 |
均值中心化 | 0.977 | 0.3227 | 0.5040 | 0.5573 | 6 |
一阶导数 | 0.974 | 0.1630 | 1.0915 | 0.7619 | 8 |
Autoscale+一阶导数 | 0.941 | 0.2682 | 1.2523 | 1.1317 | 6 |
均值中心化+一阶导数 | 0.967 | 0.1950 | 1.3558 | 0.8358 | 7 |
图3 Autoscale预处理全光谱建模结果图
3.5光谱区间选择结果
本研究分别采用iPLS和GA两种变量选择方法对光谱区间进行优选,通过对比模型参数的优劣确定最终使用的方法。
3.5.1Forward iPLS选择结果
采用Forward iPLS方法选择光谱区间,每个间隔宽度为100个变量,一个15个间隔,然后用每个间隔进行PLS模型的建立,根据每个子区间得到的RMSECV值选择一个或多个间隔用于最终PLS定量分析模型的建立。最终选择的结果如图4所示,绿色部分代表最终选择用来建模的区间,红色部分为没有参与建模的区间。图5显示了用选择的光谱区间进行建模的结果,模型的决定系数为0.995,RMSEC=0.1911,RMSECV=0.2245,RMSEP=0.1662,除RMSEC外各项参数都有一定程度的改善。
图4 Forward iPLS选择波段图
图5 iPLS选择光谱区间建模结果图
3.5.2Reverse iPLS选择结果
采用ReverseiPLS方法选择光谱区间。与ForwardiPLS方法类似,每个间隔宽度为100个变量,一共15个间隔,然后用每个间隔进行PLS模型的建立,根据每个子区间得到的RMSECV值选择一个或多个间隔用于最终PLS定量分析模型的建立。最终选择的结果如图6所示,绿色部分代表最终选择用来建模的区间,红色部分为没有参与建模的区间。图7显示了用选择的光谱区间进行建模的结果,模型的决定系数为0.995,RMSEC=0.1926,RMSECV=0.2475,RMSEP=0.1995,与Forward iPLS一样,除RMSEC略微上升外,各项参数较全光谱建模都有了改善。
图6 Reverse iPLS选择波段图
图7 iPLS选择光谱区间建模结果图
3.5.3GA变量选择结果
图8所示GA选择光谱区间结果图,图中颜色由红变蓝表示模型的RMSECV值逐渐变小。彩色部分为通过计算筛选出来的光谱区间,空白部分则予以剔除,建模结果如图9所示,决定系数为0.994,RMSEC=0.1620,RMSECV=0.3178,RMSEP=0.2577,模型的性能较全光谱建模也得到了一定程度的改善。
图8 GA变量选择结果图
图9 GA选择光谱区间建模结果图
3.5.4小结
通过采用两种iPLS和GA对用于建模的光谱变量进行筛选,将不同方法所建立的PLS模型的结果列于表2。可以发现,用每种方法筛选出来的变量建立模型,得到的结果都有一定程度的改善,虽然RMSEC有小幅上升,但是更为关键的参数RMSECV和RMSEP都有较为明显的下降,最终选择结果更好的ForwardiPLS方法。
表2 不同变量筛选方法比较
波段选择方法 | R2 | RMSEC | RMSECV | RMSEP | PCs |
无 | 0.994 | 0.1495 | 0.5671 | 0.3016 | 7 |
Forward iPLS | 0.995 | 0.1911 | 0.2245 | 0.1662 | 5 |
Reverse iPLS | 0.995 | 0.1926 | 0.2475 | 0.1995 | 4 |
GA | 0.994 | 0.1620 | 0.3178 | 0.2577 | 7 |
3.6重复性试验结果
在验证集样品中选取9号、22号和38号,每个样品重复测定10次光谱,用建立的模型对其蛋白含量进行预测,预测和统计结果列于表3。
表3 重复性结果
预测值 测量次数 | 9号(mg·mL-1) | 22号(mg·mL-1) | 38号(mg·mL-1) |
1 | 5.8178 | 8.9833 | 1.2343 |
2 | 5.8045 | 8.9654 | 1.2145 |
3 | 5.8142 | 8.9765 | 1.2234 |
4 | 5.8345 | 8.9876 | 1.2487 |
5 | 5.8277 | 8.9732 | 1.2178 |
6 | 5.8139 | 8.9643 | 1.2289 |
7 | 5.8098 | 8.9677 | 1.2308 |
8 | 5.8345 | 8.9822 | 1.2199 |
9 | 5.8401 | 8.9734 | 1.2308 |
10 | 5.8320 | 8.9613 | 1.2214 |
平均值 | 5.8229 | 8.97349 | 1.22705 |
标准偏差 | 0.012 | 0.009 | 0.010 |
χ2 | 1.06 |
重复性 | z××σ=0.044 |
对于给定95%置信水平,χ2(0.05,2)临界值=5.99,所得的χ2值小于5.99,说明重复测定的所有方差属于同一总体,近红外方法测定样品纤原含量的重复性可按z××σ计算得出,为0.044。
4讨论
本实验采用近红外光谱分析技术,建立了纤维蛋白原生产的层析过程中,对流穿液中蛋白含量进行快速检测的PLS定量模型,可快速准确地预测流穿液中总蛋白的含量,证明了用近红外方法在线检测流穿液中纤原纯度的可行性。在研究过程中,首先制备了一系列不同浓度的样品,共60个,用透射模块采集其近红外光谱。建模过程中,首先用K-S方法将样品划分为40个校正集和20个验证集,然后确立了Autoscale作为光谱的预处理方法,最后通过考察,选择Forward iPLS方法进行光谱变量的筛选,最终建立的模型的各项参数为:R2=0.995,RMSEC=0.1911,RMSECV=0.2245,RMSEP=0.1662。
参考文献
倪道明. 血液制品 (第三版) . 北京: 人民卫生出版社, 2013.
马会利, 冯军, 陈纪林等. 人纤维蛋白原结构和功能研究进展. 四川生理科学杂志, 2002, 24(2): 53-7.
VELIK-SALCHNER C, HAAS T, INNERHOFER P, et al.The effect of fibrinogen concentrate on thrombocytopenia . Journal ofthrombosis and haemostasis : JTH, 2007, 5(5): 1019-25.
何英武,吴瑞玲.血浆纤维蛋白原测定的方法进展及临床意义. 现代中西医结合杂志,2004, 13(18): 2511-2.
Li L, DingB, Yang Q, et al. The relevance study of effective information between nearinfrared spectroscopy and chondroitin sulfate in ethanol precipitation process. J Innov Opt Heal Sci, 2014,07(06): 1450022.
Wang P, ZhangH, Yang H, et al. Rapid determination of major bioactive isoflavonoid compoundsduring the extraction process of kudzu (Pueraria lobata) by near-infraredtransmission spectroscopy .Spectrochim Acta A Mol Biomol Spectrosc, 2015, 137: 1403-1408.
Zhang XB, Feng YC, Hu CQ. Feasibility andextension of universal quantitative models for moisture content determinationin beta-lactam powder injections by near-infrared spectroscopy . Anal Chim Acta, 2008, 630(2): 131-140.