首份DNBSEQ-T7测序仪独立研究结果出炉!性能与Illumina平台相当且具成本优势
p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " span style=" text-indent: 2em " 在测序产业链中,基因测序仪作为起点,为整个中下游测序服务提供最基本的支撑。在测序仪的研制生产上,以华大智造(MGI)为代表的中国企业近年来开始崭露头角。2015年至2018年,华大智造相继推出了拥有完全自主知识产权、具有国际先进水平的桌面型测序仪BGISEQ-500、BGISEQ-50、MGISEQ-2000、MGISEQ-200以及DNBSEQ-T7,实现了我国基因科技布局产业上游的突破。 /span /p p style=" text-align: center" img style=" max-width: 100% max-height: 100% width: 600px height: 338px " src=" https://img1.17img.cn/17img/images/202003/uepic/56e75744-7b2f-40c0-a650-e8df0871237f.jpg" title=" 1.测序仪.jpg" alt=" 1.测序仪.jpg" width=" 600" height=" 338" border=" 0" vspace=" 0" / /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 其中,DNBSEQ-T7(原名MGISEQ-T7)作为“全球日生产能力最强”的基因测序仪,自发布之日便备受业内关注。该平台利用DNA纳米球核心测序技术和联合探针锚定聚合技术,具有高通量特点——1天最多可完成60例人类全基因组测序(30X)。今年1月,华大智造发布了DNBSEQ-T7首批测序数据,显示数据表现优秀,质量稳定,符合预期。但此前,DNBSEQ-T7测序仪还未与Illumina公司所生产的短读长测序仪进行过系统比较。 /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 近日,来自韩国Clinomics公司、蔚山国家科学与技术研究所下属韩国基因组学中心(KOGIC)等机构的研究人员于预印本网站BioRxiv发布了首个基于华大智造DNBSEQ-T7测序仪的独立验证结果。 /p p style=" text-align: center" img style=" max-width: 100% max-height: 100% width: 600px height: 380px " src=" https://img1.17img.cn/17img/images/202003/uepic/8355826b-5fec-41ec-93d4-fccf8bef21f4.jpg" title=" 2. 研究结果.png" alt=" 2. 研究结果.png" width=" 600" height=" 380" border=" 0" vspace=" 0" / /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 研究人员通过使用相同的KOREF(韩国人参考基因组)样本以及相同的韩国参考基因组,对来自华大智造和Illumina的7款不同测序平台进行了系统比较,包括BGISEQ-500、DNBSEQ-T7、HiSeq2000、HiSeq2500、HiSeq4000、HiSeqX10以及NovaSeq6000。通过比较测序统计数据(base质量、重复率和随机错误率)、比对统计数据(比对率、深度分布、GC 含量)、变异统计(转换/颠换比、dbSNP注释率和SNP基因分型芯片一致性率),研究人员发现MGI和Illumina测序平台在测序质量、覆盖均匀性、GC覆盖度和变异准确性方面均有可比性,因此认为MGI平台可大范围的用于基因领域研究,而其成本仅约为Illumina平台的一半。相关论文题为“Comparative analysis of seven short-reads sequencing platforms using the Korean Reference Genome: MGI and Illumina sequencing benchmark for whole-genome sequencing ”。 /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 下面,就让我们详细解读一下这项研究。 /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em text-align: center " span style=" color: rgb(255, 0, 0) " strong span style=" background-color: rgb(250, 192, 143) " 一、材料和方法& nbsp & nbsp /span /strong /span /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " strong span style=" text-indent: 2em color: rgb(255, 0, 0) " 样本和全基因组测序 /span /strong /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " strong span style=" text-indent: 2em " 样本 /span /strong span style=" text-indent: 2em " : /span span style=" text-indent: 2em " 韩国男性捐赠者(KOREF)的外周血样本中提取DNA进行WGS测序。 /span /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " strong span style=" text-indent: 2em " 测序平台 /span /strong span style=" text-indent: 2em " :BGISEQ-500、DNBSEQ-T7、HiSeq2000、HiSeq2500、HiSeq4000、HiSeqX10、NovaSeq6000。 /span /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " strong span style=" text-indent: 2em " 文库构建 /span /strong span style=" text-indent: 2em " :从KOREF样本中构建了7个不同测序平台的测序文库。 /span /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em text-align: center " 表1. 7款测序平台插入片段长度与测序类型统计 /p p style=" text-align: center" img style=" max-width: 100% max-height: 100% width: 600px height: 330px " src=" https://img1.17img.cn/17img/images/202003/uepic/e31dd95b-65a3-4c88-93ed-4100513f0064.jpg" title=" 3. 表1. 7款测序平台插入片段长度与测序类型统计.png" alt=" 3. 表1. 7款测序平台插入片段长度与测序类型统计.png" width=" 600" height=" 330" border=" 0" vspace=" 0" / /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " strong 原始数据预处理 /strong :使用FastQC(版本v0.11.8)评估MGI和Illumina测序平台的整体测序质量,使用PRINSEQ(版本 v0.20.4)检测PCR 重复。使用NGS QC Toolkit (版本v2.3.3)进行原始数据的过滤。去掉低质量以及携带接头的数据后剩下的数据将进行下一个分析步骤——比对。 /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " span style=" color: rgb(255, 0, 0) " strong 2.& nbsp 比对、变异检测以及覆盖分析 /strong /span /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 该研究使用BWA(版本 v0.7.12)的mem模块进行将过滤后的数据比对到人类基因组(版本GRCh38),使用Picard(版本v2.6.0)进行重复标记,使用GATK(版本v3.3)对bam文件进行局部重新比对和重新校正碱基质量值。并且使用GATK进行SNP和InDel变异检测,产生的变异文件将和dbSNP库进行注释分析。使用SAMtools(版本v1.9)进行覆盖分析。 /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " strong span style=" color: rgb(255, 0, 0) " 3.& nbsp 变异比较与SNP基因分型的一致性 /span /strong /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 利用每个测序平台调用的每个变异的染色体位置和基因型来确定7款测序平台之间的关系。在一个或多个平台上发现的1,034,447个位点与在所有平台上都确定了基因型的位置进行了比较。使用FastTree(版本v2.1.10)软件的generalized time-reversible模型生成无根树。所用数据已删除未比对上数据以及InDel等,仅保留常染色体数据。 /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em text-align: center " strong span style=" background-color: rgb(250, 192, 143) color: rgb(255, 0, 0) " 二、分析结果& nbsp & nbsp /span /strong /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " span style=" color: rgb(255, 0, 0) " strong 1. 测序数据总结 /strong /span /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " KOREF测序自2010年以来已经进行了9年,因此,血液样品、文库构建和测序条件都不尽相同。该研究所使用的Illumina平台数据为2014年至2019年,而MGI平台数据为2017年至2019年。测序长度因平台而异,数据量也有所不同,针对HiSeq2500和NovaSeq6000选择35X的覆盖度。HiSeq2000、HiSeq4000、和DNBSEQ-T7 选择30X的覆盖度。 /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " strong span style=" color: rgb(255, 0, 0) " 2.& nbsp 评价原始数据测序质量和测序错误率 /span /strong /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 碱基质量和原始read测序错误率评估是评价测序平台性能的比较重要因素,研究人员首先使用FastQC软件检测了原始数据的base质量分布。所有7款平台都显示,每个核苷酸的质量在read末尾时逐渐下降。此外,HiSeq4000和HiSeqX10 reads的质量值在读取结束时有迅速下降的趋势。而NovaSeq6000和DNBSEO-T7的低质量reads比例最低(分别为2.8%和4.2%)。 /p p style=" text-align: center" img style=" max-width: 100% max-height: 100% width: 500px height: 1039px " src=" https://img1.17img.cn/17img/images/202003/uepic/8838ce2e-9403-42af-9806-a04660c942fc.jpg" title=" 4. 图1. 7款平台数据质量统计.png" alt=" 4. 图1. 7款平台数据质量统计.png" width=" 500" height=" 1039" border=" 0" vspace=" 0" / /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em text-align: center " 图1. 7款平台数据质量统计 /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 除此之外,随机测序错误(N)也是评价测序平台质量的一个重要指标。研究人员分析发现,HiSeq2000、HiSeq4000和HiSeqX10在部分cycles的测序反应中出现了较高的测序错误率(0.01%左右),而BGISEQ-500和DNBSEQ-T7在所有cycles中的测序错误率基本保持在一个平稳的水平(0.001%左右)。 /p p style=" text-align: center" img style=" max-width:100% max-height:100% " src=" https://img1.17img.cn/17img/images/202003/uepic/5acea81c-91f8-45cd-bb0e-e7a430641d99.jpg" title=" 5. 图2. 7款平台随机测序错误率表现.png" alt=" 5. 图2. 7款平台随机测序错误率表现.png" / /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em text-align: center " 图2. 7款平台随机测序错误率表现 br/ /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 在PCR 重复序列率(Duplicate rate)和接头污染率(Adapter rate)方面:HiSeq2000的重复序列率最高(8.71%),DNBSEQ-T7次之(3.04%);而HiSeq4000、HiSeqX10和NovaSeq6000相比其他平台显示出更高的接头污染率(均在2%以上)。研究人员分析,这可能是由于以上几款平台的序列长度更长所导致。此外,文库制备方法可能也会影响不同平台的重复序列率和接头污染率。 /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em text-align: center " 表2. 7款平台reads重复率,随机性错误率和接头污染率统计 /p p style=" text-align: center" img style=" max-width: 100% max-height: 100% width: 600px height: 225px " src=" https://img1.17img.cn/17img/images/202003/uepic/40b50f94-8ba2-41a3-b2a4-08e8bf373754.jpg" title=" 表2. 7款平台reads重复率,随机性错误率和接头污染率统计.png" alt=" 表2. 7款平台reads重复率,随机性错误率和接头污染率统计.png" width=" 600" height=" 225" border=" 0" vspace=" 0" / /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " span style=" text-indent: 2em " & nbsp strong span style=" text-indent: 2em color: rgb(255, 0, 0) " 3.& nbsp 基因组覆盖和测序一致性 /span /strong /span /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " span style=" text-indent: 2em " 所有平台显示比对率均超过99.98%,基因组覆盖率超过99.6%。 /span /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em text-align: center " 表3. 7款测序平台比对和覆盖度统计 /p p style=" text-align: center" img style=" max-width: 100% max-height: 100% width: 600px height: 294px " src=" https://img1.17img.cn/17img/images/202003/uepic/580223b8-c321-4839-a77f-07ff67e23707.jpg" title=" 6. 表3. 7款测序平台比对和覆盖度统计.png" alt=" 6. 表3. 7款测序平台比对和覆盖度统计.png" width=" 600" height=" 294" border=" 0" vspace=" 0" / /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " & nbsp 为了评估测序的均匀性,研究人员还分析了染色体的深度分布,所有7款平台都显示了类似的深度分布模式。 /p p style=" text-align: center" img style=" max-width: 100% max-height: 100% width: 600px height: 505px " src=" https://img1.17img.cn/17img/images/202003/uepic/dc80638b-92ef-4a70-8d42-2e11e39febbe.jpg" title=" 7 图3. 7款平台覆盖深度分布表现.png" alt=" 7 图3. 7款平台覆盖深度分布表现.png" width=" 600" height=" 505" border=" 0" vspace=" 0" / /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em text-align: center " 图3. 7款平台覆盖深度分布表现 br/ /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " GC Bias分析同样也是重要指标之一。研究人员通过检测测序reads中GC含量的分布,发现7款测序平台的原始reads均与人类参考基因组的GC含量分布相似,并通过生成GC bias图,显示每个GC百分比的相对覆盖。没有Bias的结果是一条平坦的线,相对覆盖率为1。研究人员发现,在中等-GC范围内,所有7款平台提供的覆盖率几乎都在20%~60%。另一方面,与其他平台相比,HiSeq2000平台的相对覆盖范围在60% GC以上的下降幅度更大, NovaSeq6000的相对覆盖范围远远超过60% GC。 /p p style=" text-align: center" img style=" max-width: 100% max-height: 100% width: 500px height: 772px " src=" https://img1.17img.cn/17img/images/202003/uepic/e5408b69-81e0-4bb0-b431-a520235b7e6a.jpg" title=" 8 图4. (A) 人基因组(GRCH38组装版本)的GC含量分布 (B) 7款平台GC含量分布表现.png" alt=" 8 图4. (A) 人基因组(GRCH38组装版本)的GC含量分布 (B) 7款平台GC含量分布表现.png" width=" 500" height=" 772" border=" 0" vspace=" 0" / /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em text-align: center " 图4.& nbsp (A)& nbsp 人基因组(GRCH38组装版本)的GC含量分布 & nbsp (B) 7款平台GC含量分布表现 /p p style=" text-align: center" img style=" max-width: 100% max-height: 100% width: 600px height: 485px " src=" https://img1.17img.cn/17img/images/202003/uepic/4fda2bf1-8743-49cb-96ec-6946037b0c0a.jpg" title=" 9. 图5. 7款平台GC bias图.png" alt=" 9. 图5. 7款平台GC bias图.png" width=" 600" height=" 485" border=" 0" vspace=" 0" / /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em text-align: center " 图5. 7款平台GC bias图 br/ /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " strong span style=" color: rgb(255, 0, 0) " 4.& nbsp 7款平台中检测到的变异比较 /span /strong /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 研究人员分析发现,7个平台平均检出418万个SNVs位点和66万个InDel位点。研究人员还分析了7款平台中发现的SNV的数量,数据显示HiSeq2000在7款平台中假阴性数量最多。两款MGI平台(DNBSEQ-T7和BGISEQ-500)分别有16328和10595个假阴性的位点,而NovaSeq6000平台的假阴性位点个数最少,为4,237个。 /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em text-align: center " 表4. MGI测序平台和Illumina测序平台变异检测统计 /p p style=" text-align: center" img style=" max-width: 100% max-height: 100% width: 600px height: 309px " src=" https://img1.17img.cn/17img/images/202003/uepic/1f8eb85b-a6b2-4a15-b382-75767057767f.jpg" title=" 10. 表4. MGI测序平台和Illumina测序平台变异检测统计.png" alt=" 10. 表4. MGI测序平台和Illumina测序平台变异检测统计.png" width=" 600" height=" 309" border=" 0" vspace=" 0" / /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 研究人员还将七个全基因组序列所测的变异与一个SNP基因分型芯片作为独立平台进行了比较,在950,637个可比较的位置中,超过99.3%的基因型与来自7款平台的基于WGS的基因型相匹配。此外,在所有7款基于WGS的基因分型结果中,SNP基因分型中的4,376个位点不一致,表明这些位点可能是SNP基因分型芯片中的错误。除HiSeq2000和HiSeq4000平台外,其他平台的数据也呈现出相似的一致性。这可能是因为HiSeq2000 (28x)和HiSeq4000 (25.8x)的平均覆盖深度相对较低的原因。 br/ /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em text-align: center " 表5. SNP基因分型芯片数据与全基因组数据的基因型比较 /p p style=" text-align: center" img style=" max-width: 100% max-height: 100% width: 600px height: 246px " src=" https://img1.17img.cn/17img/images/202003/uepic/10fd0f2e-407f-40c2-98f1-f818dc17e091.jpg" title=" 11.表5. SNP基因分型芯片数据与全基因组数据的基因型比较.png" alt=" 11.表5. SNP基因分型芯片数据与全基因组数据的基因型比较.png" width=" 600" height=" 246" border=" 0" vspace=" 0" / /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em text-align: center " strong span style=" background-color: rgb(250, 192, 143) color: rgb(255, 0, 0) " 三、结语& nbsp & nbsp /span /strong /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 研究人员最后表示,尽管他们使用了所有七款测序仪对相同的样本进行了测序,但仅仅单个人的样本可能不能证明发生在不同个体、DNA分子和整体测序质量中的变异。这为这项研究带来了一定的局限性。不过对于那些考虑购买这些测序仪来生成大量数据的机构来说,以上研究数据仍则可以作为直观的参考指标。研究人员在文章最后强调,总体而言,华大智造平台和Illumina测序平台在测序质量、覆盖均匀性、GC覆盖度和变异准确性方面均有可比性,因此可以大体得出结论,即华大智造平台可以与Illumina平台一样大范围地应用于基因组学研究,而其成本仅约为Illumina平台的一半。 /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 以上数据表现对华大智造测序平台在性能、稳定性和成熟度上进行了充分肯定,也为广大的科研及临床机构提供一种更为经济的选择,将有助于推动全球基因测序行业大幅降低测序成本。值得关注的是,DNBSEQ-T7在各项性能上都表现不俗,结合其超高的测序通量和全面自动化能力,相信该平台将继续帮助中国基因测序产业进一步打破海外公司技术壁垒,实现在测序设备技术和性价比上的引领,并成为推动全球基因产业发展的重要力量。也让我们共同期待,未来DNBSEQ-T7能在行业中有更多优异表现,让国产基因测序仪走进更多实验室,最终造福人类健康。 /p p br/ /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 参考资料: /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " 1. Comparative analysis of seven short-reads sequencing platforms using the Korean Reference Genome: MGI and Illumina sequencing benchmark for whole-genome sequencing /p p style=" margin-top: 10px margin-bottom: 10px line-height: 1.5em text-indent: 2em " doi:& nbsp https://doi.org/10.1101/2020.03.22.002840 /p