weiwang115
第1楼2009/05/22
match: 匹配度,即将测得谱图与谱库标准谱图相比较,以某种算法得出的相似度,以999归一化;表征测得谱图与标准谱图的相似性。
R.match: 反向匹配度,与match类似,其区别在于计算R.match时,忽略掉测得谱图中有,而标准谱图中没有的峰。近似表征标准谱图相对于测得谱图的相似形。因此,R.match数值一般略高于match数值。
prob:匹配概率。由于NIST库中同一种物质可能有多张略有差别的标准谱图,因此将hit list中重复的谱图去除后,以所有物质的概率和为100%,计算某一物质的匹配概率。
如,某一谱图的hit list中列出100个结果,可能只有50种物质,同一物质的不同标准谱图可能有不同的match值,但是prob值是一样的,而且50种物质的prob值之和为100%。
因此,在match值较高的情况下,prob值的参考价值是最大的。
symmacros
第4楼2009/05/22
在安捷伦的MS ChemStation中的检索统计表(statistics)中prob代表probability(匹配概率)。此值大于90,认为是匹配非常好的。低于50,则认为匹配有疑问,未知物和标准存在差异。参考以下原文:
Prob
The probability that the unknown is correctly identified as the reference. Values greater than 90 are very good matches. Values less than 50 mean that substantial differences exist between the unknown and reference, and the match should be regarded with suspicion. Differences in probability values of +/-5 are generally not significant. An asterisk (*) before the probability value indicates that the molecular ion was used in the match. If there is no asterisk, the molecular ion was not used.
This value takes into account all the other statistics. It is an empirical determination; that is, the K, dK, and other values are used to "look up" a probability in a table. This look-up table was developed by McLafferty and co-workers through extensive evaluation of search results using a large database.
This final probability value is a contamination-corrected Class IV reliability value. A Class IV reliability value implies that the match may be an exact match, a member of the same homologous series or an isomer. Thus, you should not assume that the first match on the hit list represents a definitive identification.
在安捷伦的MSChemStation E版本中已无prob,改为qual(match quality).在以前的版本中(A.B.C等),检索统计表(statistics)中序号后就是prob值。随后是CAS#,K,dK, Flag....(E版本为Rank,Name,MW,Formula,Qual,MI,CASe#....等).
实际上在安捷伦的MSChemStation中prob值和match quality(匹配度)的值是相等的。
在NIST检索中,其检索的匹配用正向(标准库的峰与未知谱对照,direct match)和反向(未知谱的峰与标准库对照,reserve search)两种方式表示(match,R.match)。
pygcms
第7楼2009/06/21
路过
以前不知道,学习了。呵呵
symmacros
第10楼2010/11/30
是的,pbm反向匹配。
计算正向检索(标准库的峰与未知谱对照,看看谱库中是否存在与未知谱相同的参考谱图)的相似系数,即匹配概率或匹配率(匹配度)。计算反向检索(未知谱的峰与标准库对照,看看标准谱中的各质量峰是否出现在未知谱中。忽略在谱库不存在的未知谱上的峰。)的相似系数,即匹配概率或匹配率(匹配度)。
这个匹配概率(possibility)是通过统计计算来的。曾经在一般英文书上看到,记不清了。也源于未知谱和谱库谱图之间矢量的角的余弦。
在NIST检索中匹配率最大为1000(相当PBM中100)。最好的结果是999,无峰的谱图是0。一般讲,900或更高,极好匹配; 800-900,良好匹配;700-800,尚可;低于600,差。
对正向检索来讲,任何峰只要在未知谱或标准谱中之一出现,都会降低匹配值。对反向检索而讲,任何峰只要在标准谱出现,而未知谱中没有,也会降低匹配值。
如果正向的匹配率低,反向的匹配率高,说明未知峰谱可能是混合物的谱图,或者本底干扰严重。
PBM检索也属于反检索。
PBM按各个质谱的重要性和唯一性(由检索目录决定),丰度(0-100分组),并结合分子式计算,氮规则,同位素簇模样,合理丢失,丢失中性碎片等参数进行比较,筛选比较,比较后计算相似系数。
PBM检索是一种谱库检索技术(检索程序),它可以将未知化合物的质谱和参比(标准)质谱库进行比较。MSD 化学工作站的检索流程使用基于概率匹配(PBM=probability-based matching)的算法,该算法由康奈尔大学的 Fred McLafferty 教授及其合作者共同开发。PBM 检索验证在未知质谱中是否存在参比质谱的主峰,以此来识别参比谱库中与未知化合物最相似的质谱。该算法叫做反检索,即使样品光谱包含有共流化合物,算法也能在谱库中检索到相应光谱。质谱的相似性通过称为匹配质量的量来衡量。
这种算法使用反向检索来检验未知谱中是否含有参照谱中的峰。未知谱中多余的峰被忽略,因此可以进行多种化合物的混合物谱图解析。
由于质谱中各种质荷比 (m/z) 值出现的几率不同,PBM 算法同时利用质量数和丰度值来确认参照谱中最显著的峰。谱图加入谱库后,这些峰用来产生用于 PBM 检索例程的压缩参照谱。
然后检索例程中的预过滤器给未知谱中每个峰赋以显著的值,用来查找压缩参照谱库中最可能的匹配。接着使用上述的反向检索将所选的压缩谱同完整的未知谱进行对比。预过滤器可以立即排除数据库中约 95% 的化合物,从而大大加快了检索速度(使用默认策略参数时)。