中国科学家设计出二代测序自动化软件处理流程

秦丽娟

2014.06.27 点击0次

TA的动态

导读：二代测序技术的发展对测序数据的处理分析提出了很高的要求。目前二代测序数据分析软件很多，但是绝大多数软件仅能完成单一的分析功能，如何能正确高效地选择整合这这些软件已成为迫切需求。

　　二代测序技术的发展对测序数据的处理分析提出了很高的要求。目前二代测序数据分析软件很多，但是绝大多数软件仅能完成单一的分析功能(例如：仅进行序列比对或变异读取或功能注释等) ，如何能正确高效地选择整合这些软件已成为迫切需求。

　　来自中国医学科学院，北京协和医学院等处的研究人员设计了一套基于 perl 语言和 SGE 资源管理的自动化处理流程来分析 Illumina 平台基因组测序数据。该流程通过自动化并行脚本控制流程的高效运行，一站式输出分析结果和报告，简化了数据分析过程中的人工操作，大大提高了运行效率。相关文章公布在《遗传》杂志上。

　　二代测序技术(Next-generation sequencing)大幅度降低了测序的时间和成本，使得大规模测序逐渐成为常规的实验室研究和临床检测手段。测序产生的数据量急剧增加，如何高效地分析这些数据，已成为迫切需要解决的问题。目前，分析序列信息的生物信息学软件纷繁复杂，但基本上每个软件只能完成单一的分析功能，实现一个完整的分析流程则需要对众多软件进行整合，而手动串联的效率往往不尽人意;同时，这些软件需要在Linux工作环境下以命令行运行，要求用户具备较好的计算机背景;另外，即便一些实验室完成了分析流程的构建，他们往往不会公开许多细节，新用户仍然要从头建起。

　　针对这一问题，研究人员希望能通过构建经典的二代测序数据分析流程，并实现各个环节的高效自动化管理和分析，减轻研究者前期的工作负担，促进相关领域进一步对基因组测序研究项目的顺利开展。

　　研究人员为此设计了一套基于 perl 语言和 SGE 资源管理的自动化处理流程来分析 Illumina 平台基因组测序数据。该流程以测序原始序列数据作为输入，调用业界标准的数据处理软件(如：BWA，Samtools，GATK，ANNOVAR 等)，最终生成带有相应功能注释、便于研究者进一步分析的变异位点列表。

　　这一流程通过自动化并行脚本控制流程的高效运行，一站式输出分析结果和报告，简化了数据分析过程中的人工操作，大大提高了运行效率。用户只需填写配置文件或使用图形界面输入即可完成全部操作，为广大研究者分析二代测序数据提供了便利的途径。

　　目前测序数据处理软件很多，研究人员综合考虑了适用性和效率，整合出了一套标准的数据处理流程。具体来说，获得 FASTQ格式的原始测序数据后，需要数据进行以下处理： (1)使用BWA 软件把这些短序列和参考基因组进行对比，确定短序列在基因组上的位置，把短序列组装成完整的人类参考基因组; (2)使用 Samtools 软件把这些短序列调整成按一定顺序(1-22，X，Y，其他)排列的序列，并进行数据格式的转换; (3)使用 Picard 软件把测序产生的冗余信息和噪声去掉; (4)使用 GATK 寻找样本测序数据与参考基因组的差异，列出这些差异点; (5)使用 Annovar对这些变异位点进行功能注释，得到一个易于理解的变异位点列表。

　　这一项目成功整合了一系列二代测序数据分析软件，形成了一套经典的数据分析流程。这一流程通过并行化设计和自动化处理，一方面简化了操作成本、缩短了数据分析周期，另一方面也使本流程可以引入更完善的数据校验步骤，增强结果的可信度。

　　流程针对Illumina 平台双端测序数据开发，满足了大部分处理需求，并对其他用户提供了一个很好的参考，后续研究人员还将根据用户需求对该自动化流程进行持续维护。

　　随着二代测序技术的逐步发展，二代测序已经广泛应用于科研和临床研究。这一流程提高了二代测序数据分析的入门和运转效率，其必将在二代测序相关基因组学研究中，促进广大科研人员工作的高效进行。

来源于：转化医学网

基因测序

打开APP，掌握第一手行业动态

打赏

秦丽娟

总阅读量 0

TA的文章