薄层色谱法应用系列讲座(15)-氨基酸结构与保留关系的研究 反向传播人工神经网络用于薄层色谱中
氨基酸的结构与保留关系的研究
摘要 在测定、收集和计算出一组氨基酸的拓扑指数和各种理化参数之后,再通过相关分析选择其中最有代表性的几个参数作为反向传播人工神经网络的输入参数,用于正相薄层色谱中氨基酸保留规律的研究。结果表明·氨基酸的色谱保留值与其结构之间呈现较强的非线性关系,采用人工神经网络方法比用多元线性回归方法能够更精确地描述这种关系。
1、 前言
人工神经网络方法中,用得较多的是反向传播神经网络方法⑴。由于这一方法能较好地处理非线性体系,因而已逐步得到广泛使用。而对物质的结构与色谱保留值之间关系的研究也一直是色谱工作者感兴趣的课题。氨基酸是人们研究得比较多的一类重要的化合物。薄层色谱法很早就被用于氨基酸的研究。但由于氨基酸虽然在命名上是一类,而在结构上差别却较大,加上薄层色谱中影响因素较多,氨基酸的薄层色谱保留与它们的结构之间的关系往往呈现较强的非线性,因此,采用传统的线性回归方法描述二者的关系一直都不太理想。
本文由中国科学院大连化学物理研究所的王岳松、张军和林乐明研究员们共同完成,他们不仅测定、收集和计算了氨基酸大量的拓扑指数和理化参数,并对这些参数进行相关分析,利用相关分析从中优选出几个代表性的参数,再将这几个参数作为人工神经网络的输入参数。这样,既避免了人工神经网络对输入参数选择的盲目性,也使人工神经网络参数具有较明确的物理意义。同时还采用了多元线性回归方法和人工神经网络方法,研究了正相薄层色谱中氨基酸保留值与其结构之间的关系,得到了单用回归分析所不可能达到的、比较精确的结果。下面具体介绍他们的论文。
2、 实验部分
2-1仪器与试剂
CAMAGⅡ型薄层色谱扫描仪/CATs3.17工作站(瑞士CAMAG公司),PBQ型自动薄层铺板器(重庆新力试验电器厂),超声波发生器(CSF一1A型,上海超声波仪器厂),xY双底展开缸(上海信谊仪器厂),Linomat.Ⅳ喷样仪(瑞士CAMAG公司)。硅胶H(青岛海洋化工厂)。除了酪氨酸(Tyr)用体积分数为o.1%的HC1溶液配制外,其它氨基酸均用体积分数为1o%的丙醇配制,质量浓度约为1g/L。所有试剂均为分析纯。
2-2色谱条件
实验室自涂板:m(硅胶H):y(10g/L的CMC)一1g:2.5mI,,玻璃载板,层厚度o.25mm,110℃下活化0.5h,取出,放入干燥器中备用。在双底展开缸中上行展开,展距8.5cm,待板干后,喷洒茚三酮一硝酸铜溶液,并在105℃下加热1.5~2min。在460nm(钨灯,反射吸收模式)下扫描。
3、 结果与讨论
3-1 15种氨基酸的有关数据
氨基酸可分为脂肪族、芳族和杂环族,脂肪族氨基酸又分为中性、酸性、碱性、含羟基和含硫等5类。在常见的23种氨基酸中,我们选择了除含硫氨基酸外的15种更常见的氨基酸(其中,中性4种、酸性3种、碱性2种、含羟基2种、芳族2种、杂环2种)作为研究对象,以便使之具有足够的代表性。15种氨基酸的品(比移值)实验值列于表1中,Randic:分子连接性指数(Xoυ,X1υ)⑵⑶⑷、Pyka提出的两个指数(A,0B)⑸、Gutman指数(M)⑹、Wiener指数(W)⑺和Balaban指数(D J)⑻列于表2,物理化学参数则列于表3。表3中Mw表示相对分子质量,Vw,Aw ,MR分别代表范德华体积、表面积和摩尔折光率,N (%)是分子中氮的质量分数,d.P.和PI分别是分解温度和等当点。
表中,展开剂:RfA ,V(乙醇):V(水) = 4:1;RfB,V(乙醇):V(水) = 8:1,Rfc,V(丙醇):V(醋酸):V(水) = 3:1:1; RfD,V(丙醇):V(醋酸):V(水) = 6:2:1。
上标 1:RfA和RfB是以Asn,GIu,Gly,His,I1eu,Lys,Phe,Ser,Try’Tyr等10种氨基酸作为训练集,所有15种氨基酸作为预测集;Rfc和RfD是以Arg,Asn,GIu,Gly,Ileu,Lys,Phe,Ser,Try,Tyr等10种氨基酸作为训练集,所有15种氨基酸作为预测集。
上标 2:以所有15种氨基酸为训练集。
表-2 15种氨基酸的拓扑指数 7425
表-3 15种氨基酸的理化参数 7426
3-2 各种参数的相关分析和人工神经网络处理
从统计分析的角度来说,样本数一般应该是变量的5倍以上。同时,为了用最少的变量代表所有参数中尽可能多的信息,我们首先对所有的参数通过相关分析进行筛选。相关系数矩阵,列于表4。
显然,当两个参数的相关系数的绝对值接近1时,用它们来表达分子结构与色谱保留值之间关系的效果应该是基本相同的。当多个参数与同一个参数的相关系数的绝对值都为1时,它们的表达效果将是叠加的。因此,我们可以将与同一参数的相关系数接近1的这些参数划为一类。根据这一原则,参照表4所列出的相关系数,基本上可以将所有参数分为3类:① Mw ,X oυ, X1υ, A,W,D,J,Vw,Aw,MR;② B,M;③N (%),d.p.,PI。
从每一类中各选出1个参数,再经对不同的溶剂系统进行优化后,选出不同的3个参数参与下一步的神经网络处理。例如,对乙醇-水系统,选用PI,M,Aw,参数;对于正丙醇-醋酸系统,选用PI,M,W参数。这里,PI反映着分子的酸碱性,M及W代表着分子的拓扑结构和分子的大小,Aw也反映着分子的大小。
但是,当将参数输入神经网络时,由于作为传递函数的Sigmoid函数对于大于1的数反应不灵敏,因而输入时取PI,Aw的百分之一和M,W的千分之一。我们采用的是3-5-1型网络,即输入层设3个输入节点、隐含层设5个节点和输出层设1个节点。神经网络运行中,学习次数为80 000次左右,未发现超拟合现象。学习速率和动量因子经优化取为0.6。通过人工神经网络计算得到的Rf值列在表-1中。
由于所选取的10个作为训练集的氨基酸代表着要预测的所有的氨基酸类型,因此表-1中的预测结果反映着神经网络系统的预测能力。对预测Rf值与实验得到的Rf值进行相关分析,所得统计分析结果列于表-5。
表-4 15种参数的相关系数矩阵 7427
从表-5可以看出,用人工神经网络方法对氨基酸的Rf值的预测结果令人满意,与实验值之间的相关系数均在0.98左右。同时也可看出,用10个氨基酸作为训练集与用全体作为训练集的预测结果极为接近。这说明,用人工神经网络预测氨基酸的薄层色谱保留值具有更高的精确度和可靠性。
参考文献
1 Rumelhart D E,Hinton G E,Willams R J.Learninginternal representations by error propagation.In:Rumelhart D E,McClelland J L eds.Microstructures of Cognition.
Vo1.1.Cambridge:NIT Press,1986.318
2 Kier L B,Hall L H,Murray W J et a1.J Pharm Sci,1975,64:1971—1974
3 Randic M.J Am Chem Soc,1975,97:6609—6615
4 Kier L B。Hall L H.Molecular connectivity in strut ture-activity analysis.New York:RSP,1986.25
5 Pyka A.J Planar Chromatogr,1991,4:316-318
6 Gutman I,Ruseic B,Trinajstic N.J Chem Phys,1975,62:3399-3405
7 Wiener H.J Am Chem Soc,1947,69:17—20
8 Balaban A T.Pure Appl Chem,1983,55:199—202