仪器信息网APP
选仪器、听讲座、看资讯

中国科学家设计出二代测序自动化软件处理流程

导读:二代测序技术的发展对测序数据的处理分析提出了很高的要求。目前二代测序数据分析软件很多,但是绝大多数软件仅能完成单一的分析功能 ,如何能正确高效地选择整合这这些软件已成为迫切需求。

  二代测序技术的发展对测序数据的处理分析提出了很高的要求。目前二代测序数据分析软件很多,但是绝大多数软件仅能完成单一的分析功能(例如:仅进行序列比对或变异读取或功能注释等) ,如何能正确高效地选择整合这些软件已成为迫切需求。

  来自中国医学科学院,北京协和医学院等处的研究人员设计了一套基于 perl 语言和 SGE 资源管理的自动化处理流程来分析 Illumina 平台基因组测序数据。该流程通过自动化并行脚本控制流程的高效运行,一站式输出分析结果和报告,简化了数据分析过程中的人工操作,大大提高了运行效率。相关文章公布在《遗传》杂志上。

  二代测序技术(Next-generation sequencing)大幅度降低了测序的时间和成本,使得大规模测序逐渐成为常规的实验室研究和临床检测手段。测序产生的数据量急剧增加,如何高效地分析这些数据,已成为迫切需要解决的问题。目前,分析序列信息的生物信息学软件纷繁复杂,但基本上每个软件只能完成单一的分析功能,实现一个完整的分析流程则需要对众多软件进行整合,而手动串联的效率往往不尽人意;同时,这些软件需要在Linux工作环境下以命令行运行,要求用户具备较好的计算机背景;另外,即便一些实验室完成了分析流程的构建,他们往往不会公开许多细节,新用户仍然要从头建起。

  针对这一问题,研究人员希望能通过构建经典的二代测序数据分析流程,并实现各个环节的高效自动化管理和分析,减轻研究者前期的工作负担,促进相关领域进一步对基因组测序研究项目的顺利开展。

  研究人员为此设计了一套基于 perl 语言和 SGE 资源管理的自动化处理流程来分析 Illumina 平台基因组测序数据。该流程以测序原始序列数据作为输入,调用业界标准的数据处理软件(如:BWA,Samtools,GATK,ANNOVAR 等),最终生成带有相应功能注释、便于研究者进一步分析的变异位点列表。

  这一流程通过自动化并行脚本控制流程的高效运行,一站式输出分析结果和报告,简化了数据分析过程中的人工操作,大大提高了运行效率。用户只需填写配置文件或使用图形界面输入即可完成全部操作,为广大研究者分析二代测序数据提供了便利的途径。

  目前测序数据处理软件很多,研究人员综合考虑了适用性和效率,整合出了一套标准的数据处理流程。具体来说,获得 FASTQ格式的原始测序数据后,需要数据进行以下处理: (1)使用BWA 软件把这些短序列和参考基因组进行对比,确定短序列在基因组上的位置,把短序列组装成完整的人类参考基因组; (2)使用 Samtools 软件把这些短序列调整成按一定顺序(1-22,X,Y,其他)排列的序列,并进行数据格式的转换; (3)使用 Picard 软件把测序产生的冗余信息和噪声去掉; (4)使用 GATK 寻找样本测序数据与参考基因组的差异,列出这些差异点; (5)使用 Annovar对这些变异位点进行功能注释,得到一个易于理解的变异位点列表。

  这一项目成功整合了一系列二代测序数据分析软件,形成了一套经典的数据分析流程。这一流程通过并行化设计和自动化处理,一方面简化了操作成本、缩短了数据分析周期,另一方面也使本流程可以引入更完善的数据校验步骤,增强结果的可信度。

  流程针对Illumina 平台双端测序数据开发,满足了大部分处理需求,并对其他用户提供了一个很好的参考,后续研究人员还将根据用户需求对该自动化流程进行持续维护。

  随着二代测序技术的逐步发展,二代测序已经广泛应用于科研和临床研究。这一流程提高了二代测序数据分析的入门和运转效率,其必将在二代测序相关基因组学研究中,促进广大科研人员工作的高效进行。

来源于:转化医学网

打开APP,掌握第一手行业动态
打赏
点赞

近期会议

更多

热门评论

新闻专题

更多推荐

写评论…
0

  二代测序技术的发展对测序数据的处理分析提出了很高的要求。目前二代测序数据分析软件很多,但是绝大多数软件仅能完成单一的分析功能(例如:仅进行序列比对或变异读取或功能注释等) ,如何能正确高效地选择整合这些软件已成为迫切需求。

  来自中国医学科学院,北京协和医学院等处的研究人员设计了一套基于 perl 语言和 SGE 资源管理的自动化处理流程来分析 Illumina 平台基因组测序数据。该流程通过自动化并行脚本控制流程的高效运行,一站式输出分析结果和报告,简化了数据分析过程中的人工操作,大大提高了运行效率。相关文章公布在《遗传》杂志上。

  二代测序技术(Next-generation sequencing)大幅度降低了测序的时间和成本,使得大规模测序逐渐成为常规的实验室研究和临床检测手段。测序产生的数据量急剧增加,如何高效地分析这些数据,已成为迫切需要解决的问题。目前,分析序列信息的生物信息学软件纷繁复杂,但基本上每个软件只能完成单一的分析功能,实现一个完整的分析流程则需要对众多软件进行整合,而手动串联的效率往往不尽人意;同时,这些软件需要在Linux工作环境下以命令行运行,要求用户具备较好的计算机背景;另外,即便一些实验室完成了分析流程的构建,他们往往不会公开许多细节,新用户仍然要从头建起。

  针对这一问题,研究人员希望能通过构建经典的二代测序数据分析流程,并实现各个环节的高效自动化管理和分析,减轻研究者前期的工作负担,促进相关领域进一步对基因组测序研究项目的顺利开展。

  研究人员为此设计了一套基于 perl 语言和 SGE 资源管理的自动化处理流程来分析 Illumina 平台基因组测序数据。该流程以测序原始序列数据作为输入,调用业界标准的数据处理软件(如:BWA,Samtools,GATK,ANNOVAR 等),最终生成带有相应功能注释、便于研究者进一步分析的变异位点列表。

  这一流程通过自动化并行脚本控制流程的高效运行,一站式输出分析结果和报告,简化了数据分析过程中的人工操作,大大提高了运行效率。用户只需填写配置文件或使用图形界面输入即可完成全部操作,为广大研究者分析二代测序数据提供了便利的途径。

  目前测序数据处理软件很多,研究人员综合考虑了适用性和效率,整合出了一套标准的数据处理流程。具体来说,获得 FASTQ格式的原始测序数据后,需要数据进行以下处理: (1)使用BWA 软件把这些短序列和参考基因组进行对比,确定短序列在基因组上的位置,把短序列组装成完整的人类参考基因组; (2)使用 Samtools 软件把这些短序列调整成按一定顺序(1-22,X,Y,其他)排列的序列,并进行数据格式的转换; (3)使用 Picard 软件把测序产生的冗余信息和噪声去掉; (4)使用 GATK 寻找样本测序数据与参考基因组的差异,列出这些差异点; (5)使用 Annovar对这些变异位点进行功能注释,得到一个易于理解的变异位点列表。

  这一项目成功整合了一系列二代测序数据分析软件,形成了一套经典的数据分析流程。这一流程通过并行化设计和自动化处理,一方面简化了操作成本、缩短了数据分析周期,另一方面也使本流程可以引入更完善的数据校验步骤,增强结果的可信度。

  流程针对Illumina 平台双端测序数据开发,满足了大部分处理需求,并对其他用户提供了一个很好的参考,后续研究人员还将根据用户需求对该自动化流程进行持续维护。

  随着二代测序技术的逐步发展,二代测序已经广泛应用于科研和临床研究。这一流程提高了二代测序数据分析的入门和运转效率,其必将在二代测序相关基因组学研究中,促进广大科研人员工作的高效进行。