中文摘要: 目的 将近红外光谱技术应用于人血白蛋白酸沉生产过程中,实现了生产过程中pH值的定量测定和过程监测。 方法 首先实验室条件下模拟6批酸沉过程,气相色谱法测定乙醇含量,pH计测定pH值;然后74个样品建立pH值测定的PLSR定量分析模型,在模型的建立中对样品集划分方法、光谱预处理方法以及样品的光谱进行了考察以优化模型。 结果 模型的Rc2=0.968,Rp2=0.956,RMSEC=0.0512,RMSECV=0.0875,RMSEP=0.0594。 结论 模型有较好的预测能力和重复性,可实现酸沉过程pH值的有效测定和终点的准确判断。
关键词:近红外光谱分析技术;组分IV;化学计量学;酸沉淀;pH
人血白蛋白(Human Albumin, HA)生产过程中,需要对组分IV(FIV)上清液进行酸沉,当pH值达到HA的等电点(大约4.60~4.70左右)时停止醋酸缓冲液的加入,此生产过程结束。人血白蛋白生产过程中对组分IV上清液进行酸沉,由于FIV上清乙醇的含量在40%左右,而乙醇对pH的影响较大,因此在生产中采用离线的方式,当临近终点时需要将反应液稀释至4倍,使乙醇含量在10%左右进行pH的测定。随着醋酸缓冲液的加入,如果同样将反应液稀释4倍则临近终点时测得的pH值有微小的差别,如果每次先测定乙醇的含量然后通过乙醇含量进行稀释得到乙醇含量10%的样品进行pH的测定则会使生产过程变得繁琐。在制药领域,NIRS作为一种重要的PAT工具,已成功用于药物的原辅料质量评价、关键过程的监测和控制、成品的快速放行和质量检测等各个环节,为保证产品质量、降低生产成本、革新生产过程发挥了重要的作用。本研究中利用NIRS结合化学计量学对HA生产过程中的FI+II+III上清液醇沉过程进行监测,以实现醇沉环节的过程控制。
1 材料
1.1 试剂
FIV压滤后上清液(山东泰邦生物制品有限公司);pH 4.0的醋酸缓冲液(山东泰邦生物制品有限公司);无水乙醇(色谱纯,山东禹王实业有限公司化工分公司);去离子水。
1.2 仪器和软件
Antaris II FT-NIR光谱仪(美国Thermo Fisherscientific公司);内径4×50 mm的玻璃小管(Kimble Chase,德国);低温反应仪(郑州长城科工贸有限公司);气相色谱仪(美国Agilent Technologies公司);pH计(德国Sartorius公司);高速离心机(ThermoFisher Scientific公司);MATLAB 2013b(美国Mathworks公司);PLS_Toolbox工具箱(美国EigenvectorResearch公司)。
2 方法
2.1 酸沉过程
实验室条件下模拟6批酸沉过程,除第6批外其它5批酸沉的步骤和第三章中的酸沉过程保持一致。第6批中在加酸13次后每次补加乙醇1 ml,共补加2次,其余条件和前5批均一致。每次取样1.2 ml并做离心处理,用于光谱的采集、乙醇含量的测定及pH值的测定。
2.2 样品乙醇含量和pH值的测定
气相色谱法测定样品中乙醇的含量。该部分实验在华熙福瑞达生物医药有限公司完成。根据测得的结果用去离子水配成乙醇含量为10%的样品,然后用pH计在室温条件下测定样品的pH值。
2.3 样品光谱的采集
采用Antaris II FT-NIR光谱仪的透射模块采集样品的原始近红外光谱。光谱范围为10000-4000 cm-1,分辨率为8 cm-1,光程为4 mm,扫描次数32,背景参照为空气。所有样品采集3张原始光谱,以平均光谱作为最终的样品光谱。
2.4 样品集的划分
在近红外模型的建立中样品集的划分至关重要,对模型的准确性和有效性影响较大。校正集样品应包含所预测未知样品包含的所有化学成分并且化学值的浓度范围涵盖未知样品可能遇到的所有浓度范围,验证集样品应均匀分布于校正集样品中。因此需要科学合理的选择用于建模的样品,使模型既能满足应用的需要又能提高其准确性。
目前可以用于校正集和验证集划分的方法较多,包括随机(Random Selection,RS)法、含量梯度法、Kennard-Stone(KS)法、SPXY(Sample Set PartitioningBased On Joint x-y Distances)法、Duplex法等[8, 9]。
本研究中对不同的样品集划分方法进行考察,以模型RMSEP值作为考察依据,优选出最佳的校正集和验证集,用于后面模型的建立。
2.5 预处理方法的选择
近红外原始光谱一般需要预处理以提取有效信息、消除无关信息和噪声的干扰。本研究中对正交信号校正(OSC)、一阶导数(First Derivative,FD)SG 15点平滑、二阶导数(SecondDerivative, SD)SG 15点平滑等预处理方法进行了考察,以模型RMSEP值作为考察依据,优选出最佳的预处理方法。
2.6 样品光谱的考察
由于样品最初是由生理盐水稀释配制而成,因此对样品光谱和生理盐水光谱进行了考察,寻找两者光谱间的异同,去除光谱中相似的光谱区间从而消除背景吸收对模型建立的影响。
此外,光谱的吸光度值对光谱的质量以及模型的建立也将产生较大的影响。光谱较高的吸光度将导致检测器检测到的透过样品的光较少,所以此部分信号的信噪比较低;光谱较低的吸光度说明在此区间内样品吸收的近红外光较少,其包含的样品信息也较少。因此需要通过考察以选择最佳的光谱区间建立用于pH值测定的定量分析模型。
2.7 模型的建立与评价
本研究中利用PLSR方法建立用于酸沉过程pH值测定的定量分析模型,Venetian blinds法作为校正集交互验证方法,并且对模型的预测能力和重复性进行评价。
3 实验结果
3.1 pH值测定结果
图1和图2分别为气相色谱法测定样品乙醇含量时不含乙醇的空白样品气相色谱图和样品的气相色谱图。图中显示空白样品没有色谱峰出现,在样品色谱图中乙醇含量的峰出现在1.3 min左右,并且周围没有杂峰的干扰。酸沉过程pH值的测定结果,由于初始样品的pH值距离反应终点的pH值较远,在不影响终点判断的情况下第一至三批中0至2号样品、第四批中0至4号样品、第五六批中0至3号样品没有测定pH值,最终6个批次得到74个样品的pH值落在4.30-5.60范围内。
图1 不含乙醇的空白样品气相色谱图
(见实验记录0002109 p27)
图2样品气相色谱图
3.2 样品原始光谱
图3为酸沉过程74个样品的原始光谱,由图中显示不同样品间光谱差异较小,因此需要借助化学计量学进行光谱数据的处理和有效信息的提取。
图3 酸沉过程样品原始光谱
3.3 样品集的划分结果
本研究中分别考察了RS法、含量梯度法、KS法、KS加Y值法、SPXY法、Duplex法等样品集划分方法对模型的影响。采用PLSR方法建立模型,交互验证方法为Venetianblinds法(splits数目为5)。表1为不同方法选择得到的样品集信息,结果显示含量梯度法和Duplex法选择的校正集和验证集有相同的SD值且均值相差较小,验证集的浓度范围居于校正集的浓度范围内,结果较优。其余方法选择的校正集和验证集中的均值和SD值也较为接近,但是RS法、KS法选择的验证集的浓度范围并不完全在校正集中,不符合样品集划分的要求。
表1 不同方法选择结果样品集信息
方法 | 样品集 | 数量 | 最大值 | 最小值 | 平均值 | SD |
RS | 校正集 | 49 | 5.55 | 4.54 | 4.94 | 0.28 |
验证集 | 25 | 5.49 | 4.50 | 4.94 | 0.31 |
含量梯度法 | 校正集 | 49 | 5.55 | 4.50 | 4.94 | 0.29 |
验证集 | 25 | 5.49 | 4.52 | 4.93 | 0.29 |
KS | 校正集 | 49 | 5.49 | 4.50 | 4.95 | 0.27 |
验证集 | 25 | 5.55 | 4.54 | 4.91 | 0.32 |
KS加Y值 | 校正集 | 49 | 5.55 | 4.50 | 4.96 | 0.30 |
验证集 | 25 | 5.31 | 4.54 | 4.91 | 0.25 |
SPXY | 校正集 | 49 | 5.55 | 4.50 | 4.99 | 0.29 |
验证集 | 25 | 5.31 | 4.54 | 4.85 | 0.25 |
Duplex | 校正集 | 49 | 5.55 | 4.50 | 4.92 | 0.29 |
验证集 | 25 | 5.49 | 4.54 | 4.98 | 0.29 |
表2为不同方法划分样品集后建模得到的模型结果,对模型的各参数进行综合比较,并重点比较不同方法得到模型的RMSEP值,结果显示KS加Y值法和Duplex法得到了较小的RMSEP值。为优选出最佳的样品集划分方法,对KS加Y值法和Duplex法得到的样品进行PCA分析,主成分得分如图4所示。图4(a)为KS加Y值法样品集划分PCA得分图,在蓝色的圆圈中仅包含校正集样品而未有验证集样品包含其中,说明此区域样品集的选择结果不是最优,未达到验证集样品均匀分布于校正集的要求。图4(b)为Duplex法样品集划分的PCA得分图,可见验证集样品较均匀的分布于校正集样品中。综合考虑划分后样品集的信息、模型的结果以及样品集的PCA得分图,最终选择Duplex法作为样品集的划分方法。
表2 不同方法选择样品集建模结果
方法 | Rc2 | Rp2 | RMSEC | RMSECV | RMSEP |
RS | 0.828 | 0.749 | 0.1142 | 0.1478 | 0.1576 |
含量梯度法 | 0.830 | 0.794 | 0.1172 | 0.1736 | 0.1342 |
KS | 0.825 | 0.712 | 0.1117 | 0.1400 | 0.1953 |
KS加Y值 | 0.840 | 0.823 | 0.1199 | 0.1618 | 0.1058 |
SPXY | 0.782 | 0.762 | 0.1351 | 0.1584 | 0.1276 |
Duplex | 0.855 | 0.814 | 0.1081 | 0.1597 | 0.1251 |
图4 样品PCA得分图(a: KS加Y值法 b: Duplex法)
3.4 光谱预处理结果
在预处理方法的考察中,样品光谱将同时进行均值中心化(mean center)的处理,以增加样品光谱间的差异。本研究比较了不同预处理方法处理对建模结果的影响,以RMSEP作为模型的评价指标。表3为得到的PLSR建模结果,经过预处理后,模型的Rc2和Rp2较无处理时建模明显提高,RMSEC、RMSECV和RMSEP明显下降,说明预处理可以提高模型的有效性。通过模型参数的比较发现,不同预处理方法处理后模型的结果有较大的差异,不同预处理方法的使用顺序对模型的结果也会产生较大影响。对光谱先进行导数然后做OSC的处理得到的模型大大优于先进行OSC然后进行导数的处理,其原因可能是OSC是基于浓度阵(Y值)的一种预处理方法,当光谱经过导数的处理后再进行OSC处理,此时的光谱信息和浓度阵有较高的相关性,因此能够得到最优的结果。以RMSEP值作为模型的评价指标,综合其它各参数,选择最佳的预处理方法为一阶导数SG 15点平滑+OSC,图5为经预处理后得到的模型结果图。
表3 不同预处理方法处理后建模结果
方法 | Rc2 | Rp2 | RMSEC | RMSECV | RMSEP |
无 | 0.855 | 0.814 | 0.1081 | 0.1597 | 0.1251 |
OSC | 0.905 | 0.787 | 0.0878 | 0.1463 | 0.1324 |
FD1 | 0.945 | 0.918 | 0.0667 | 0.1347 | 0.0811 |
SD1 | 0.944 | 0.898 | 0.0673 | 0.1329 | 0.0921 |
OSC+FD1 | 0.942 | 0.889 | 0.0682 | 0.1386 | 0.0949 |
OSC+SD1 | 0.959 | 0.902 | 0.0575 | 0.1371 | 0.0904 |
FD1+OSC | 0.977 | 0.930 | 0.0431 | 0.1039 | 0.0763 |
SD1+OSC | 0.995 | 0.919 | 0.0197 | 0.1371 | 0.0872 |
注:1光谱进行导数的同时进行SG 15点平滑的处理 |
图5 一阶导数SG15点平滑+OSC处理后建模结果
3.5 样品光谱的考察结果
3.5.1 样品光谱和背景光谱的考察
图6为经二阶导数处理后的样品平均光谱和生理盐水光谱。图6(b)生理盐水光谱显示在波数5400-5200cm-1和7350-6950 cm-1左右有明显的吸收峰,此部分分别为水分子中O-H的组合频吸收和伸缩振动的一级倍频吸收,在样品平均光谱的二阶导数谱图中(图6(a))可以发现类似的吸收峰,说明此部分代表背景信息。同时可以发现,样品平均光谱二阶导数谱图更为复杂,所包含的信息更多,并且两张光谱间的差异集中在6100-5400 cm-1,可能此部分包含重要的信息。
图6 样品平均光谱(a)生理盐水的光谱(b)(二阶导数处理后)
为消除背景信息的干扰,光谱经过一阶导数SG 15点平滑+OSC的处理后,将5400-5200 cm-1和7350-6950 cm-1两个水的吸收波段区间去除之后建模,图7为得到的PLSR模型结果。将该模型结果与全波段建模结果进行比较,由表1-4显示去除水的吸收波段后建模,模型的Rc2和Rp2较全波段建模有明显提高,RMSEC、RMSECV和RMSEP值明显下降,说明模型的有效性得到提高。
图7 去掉水峰后建模结果
表4 全波段建模和去掉水峰建模结果对比
建模区间 | Rc2 | Rp2 | RMSEC | RMSECV | RMSEP |
全波段 | 0.977 | 0.930 | 0.0431 | 0.1039 | 0.0763 |
去除水峰 | 0.983 | 0.951 | 0.0367 | 0.0669 | 0.0624 |
3.5.2 样品吸光度的考察
从图3的原始光谱图中可知波段5341-4227cm-1和7112-6510 cm-1处吸光度值达到了2.80以上,而10000-9000 cm-1波段吸光度仅在0.70左右,整个光谱区间光度有较大的差异。因此本研究分别考察了吸光度高和吸光度低对模型结果的影响,并以RMSEP值作为模型优劣的评价指标以优选出最佳光谱吸光度范围。
在高吸光度的考察中,将阈值范围设置在2.25至3.25之间,以0.10作为梯度,选择低于阈值的变量点建模,以考察高吸光度值的变量点对模型的影响。图8为以吸光度2.25至3.25之间作为阈值时得到模型RMSEP值的变化结果。由图中显示,当阈值在2.25至2.80之间时,模型的RMSEP值有较小的变化,说明介于此区间的变量对模型的影响较小。当阈值在2.80至2.89间时模型的RMSEP值迅速下降,说明此区间的变量可能包含重要的光谱信息,对模型的建立有着重要的影响,引入此区间的变量可提高模型的有效性;随后RMSEP值又出现上升趋势,说明随着阈值的提高,引入的此区间内的变量包含干扰信息,影响建模效果。当阈值在3.20至3.25之间时,模型的RMSEP值又出现了下降,但是没有出现在阈值为2.88时的最低点。通过研究发现,最佳的高吸光度阈值为2.88,即选择吸光度值低于2.88的变量建模可得到最佳的建模结果。
图8 不同高吸光度阈值下模型结果
因光谱最低吸光度在0.63-0.64之间,在低吸光度的考察中,将吸光度阈值范围设置在0.63至1.50之间,选择吸光度高于阈值的变量建模,优选出最佳的低吸光度阈值。图9为以吸光度0.63至1.50作为阈值时得到的模型RMSEP值的变化结果图。由结果可知,模型的RMSEP值在整个低吸光度阈值区间内出现了两个上升区间和两个平稳区间,当吸光度阈值为0.63时RMSEP出现了最低值,说明为保证建模的效果所有的低吸光度变量点均应参与模型的建立。
图9 不同低吸光度阈值下模型结果
综上所述,经过样品光谱和背景光谱间关系以及光谱吸光度的考察,最终选择参与建模的变量由1557个缩小至1142个。图1-10为参与建模的变量图,其中蓝色线为样品的平均光谱,红色圆圈为选择用于建模的变量点。选择用于建模的三个光谱区间为4613-4000 cm-1、6538-5404 cm-1、10000-7355 cm-1,分别为C-H的组合频吸收、C-H一级倍频吸收和C=O(RCOOH)的二级倍频吸收、C-H一级倍频组合频吸收和二级倍频吸收。
图10 参与建模变量图
3.6 最佳模型的确定和评价
3.6.1 最佳模型的确定
光谱经过一阶导数SG15点平滑和OSC的预处理以及样品光谱的考察之后,筛选出1142个变量用于最终模型的建立。图1-11为得到的最佳PLSR模型,模型参数为Rc2=0.968,Rp2=0.956,RMSEC=0.0512,RMSECV=0.0875,RMSEP=0.0594。
图11 最佳模型结果
3.6.2 模型的评价
3.6.2.1模型预测能力评价
将最佳模型计算得到的验证集样品的pH值和利用pH计测定的结果进行配对t检验,以评价模型的预测能力。表5为配对t检验的统计学结果,可见pH计测定结果的平均值和NIRS得到的结果均值相同。在95%的置信限下,P=0.847>0.05,说明pH计的测定结果和近红外模型测定的结果没有显著性差异,证实了NIRS用于酸沉过程pH值测定的有效性。
表5 配对t检验统计结果
方法 | 样品量 | 平均值 | SD | t检验(0.05) |
t | P |
pH计 | 25 | 4.98 | 0.30 | 0.195 | 0.847 |
NIRS | 25 | 4.98 | 0.27 |
3.6.2.2重复性考察
选择验证集样品中06-4(pH=5.25)、04-7(pH=5.06)、06-13(pH=4.60)(分别代表pH的高中低值)三个样品,每个样品连续测定6张光谱,然后利用近红外定量分析模型测定pH值,以此考察近红外模型的重复性。表6为得到的重复性考察结果,结果显示三个样品的预测值和真值均较为接近,RSD值分别为0.72%、0.67%、0.59%,远远小于5%,证实了模型较好的重复性。
表6 重复性考察结果
编号 | 06-4 | 04-7 | 06-13 |
1 | 5.22 | 5.07 | 4.51 |
2 | 5.21 | 5.04 | 4.54 |
3 | 5.18 | 5.04 | 4.52 |
4 | 5.25 | 5.00 | 4.48 |
5 | 5.24 | 4.98 | 4.52 |
6 | 5.29 | 5.00 | 4.47 |
均值 | 5.23 | 5.02 | 4.51 |
SD | 0.038 | 0.034 | 0.027 |
RSD (%) | 0.72 | 0.67 | 0.59 |
4 讨论和结论
本研究建立了酸沉过程中pH值测定的近红外定量分析模型,用于酸沉过程pH值的测定和酸沉终点的准确有效判断。首先,实验室条件下模拟6批酸沉过程并在过程中取样,用气相色谱法测定样品的乙醇含量值,根据乙醇含量值配制乙醇含量为10%的样品用于pH值的测定,同时进行原始光谱的采集。然后,对不同样品集划分方法、光谱预处理方法和样品光谱进行了考察;优选出Duplex法作为样品集划分方法,一阶导数SG15点平滑+OSC作为预处理方法,并用1142个光谱变量建立PLSR模型。最后,得到了用于pH值测定的最佳PLSR模型,模型的Rc2=0.968,Rp2=0.956,RMSEC=0.0512,RMSECV=0.0875,RMSEP=0.0594。此外,对模型进行了评价,结果显示模型具有较好的预测能力和重复性。
在模型的建立中对不同样品集的划分方法进行了讨论,结果显示不同的样品集划分方法得到的校正集和验证集有较大的差别,且模型结果有一定的差别,在建模过程中要对样品划分方法详细考察,以得到具有代表性的校正集和验证集样品。在预处理方法的优选中发现相同预处理方法对光谱进行处理,其处理顺序不同也会对结果产生较大的影响,因此在光谱的预处理过程中除了选择正确的预处理方法外,当出现几种不同的预处理方法联合使用时要注意考察使用顺序对光谱及建模结果的影响。此外,研究发现吸光度值的大小对建模结果也会产生较大的影响,吸光度较大将会使检测的光信号信噪比较低,光谱的采集中要选择合适的光程,以保证样品的光谱不会出现较高的吸光度值而影响建模结果。
本研究是基于实验室条件下进行,而且收集的样品量较少,仅为其应用提供了一种理论分析。如果真正将NIRS用于工业化生产过程中pH值的测定和酸沉终点的准确有效判断还需要进一步研究。
参考文献
倪道明. 血液制品 (第三版) . 北京: 人民卫生出版社, 2013.
Kistler P, Nitschmann H. Large scale production of human plasmafractions. Eight years experience with the alcohol fractionation procedure ofNitschmann, Kistler and Lergier .Vox Sang, 1962, 7: 414-424.
刘欣晏. 人血白蛋白连续流压滤工艺研究. 山东大学, 2008.
杨海龙, 臧恒昌, 胡甜, 等. 近红外漫反射光谱法对不同产地山楂的定性鉴别和定量分析. 药物分析杂志, 2014, 34(3): 396-401.
Li L, Ding B, Yang Q, et al. The relevance study of effectiveinformation between near infrared spectroscopy and chondroitin sulfate inethanol precipitation process . JInnov Opt Heal Sci, 2014, 07(06): 1450022.
Wang P, Zhang H, Yang H, et al. Rapid determination of majorbioactive isoflavonoid compounds during the extraction process of kudzu(Pueraria lobata) by near-infrared transmission spectroscopy . Spectrochim Acta A Mol BiomolSpectrosc, 2015, 137: 1403-1408.
Zhang XB, Feng YC, Hu CQ. Feasibility and extension ofuniversal quantitative models for moisture content determination in beta-lactampowder injections by near-infrared spectroscopy . Anal Chim Acta, 2008, 630(2): 131-140.
褚小立. 化学计量学方法与分子光谱分析技术. 北京: 化学工业出版社, 2011.
吴静珠, 王一鸣, 张小超, 等. 近红外光谱分析中定标集样品挑选方法研究. 农业机械学报, 2006, 37(4): 80-82.