当前位置: 仪器信息网 > 行业主题 > >

基因组数据库

仪器信息网基因组数据库专题为您整合基因组数据库相关的最新文章,在基因组数据库专题,您不仅可以免费浏览基因组数据库的资讯, 同时您还可以浏览基因组数据库的相关资料、解决方案,参与社区基因组数据库话题讨论。

基因组数据库相关的论坛

  • 英开发出简化的基因组测序新方法

    无需进行文库制备,所用DNA样本比标准方法更少2012年12月13日 来源: 中国科技网 作者: 陈丹 中国科技网讯 据物理学家组织网12月12日(北京时间)报道,英国研究人员简化了基因组测序的标准流程,首次无需进行文库制备便完成了DNA(脱氧核糖核酸)单分子测序,而且新方法只要很少量的DNA就能获得序列数据,用量可低至不到1纳克(10亿分之一克),仅为常规测序方法的500分之一到600分之一。 文库制备是指从测序前基因组样本中提取不同长度的DNA片段,这一过程不仅费力、费时,还会浪费DNA,而新技术能极大地减少DNA的损耗,并缩短测序时间。 该研究论文的第一作者、英国威康信托基金会桑格研究所的保罗·库普兰说:“我们用这种方法对病毒和细菌的基因组测序后发现,即使在相对较低的水平,我们也能够确定所检测的是何种有机物,不论样本中是否存在特定的基因或质粒(这对于确定抗生素耐药性很重要),或者其他信息,如对特定DNA碱基的修改等。”他表示,一旦技术得到优化,将在快速、高效地识别医院和其他医疗场所中的细菌和病毒方面具有很大的应用潜力。 研究小组利用第三代单分子测序系统PacBio RS演示了这种简化的直接测序方法。他们仅仅用800皮克(千分之一纳克)DNA来分析一个生物体的基因组,尽管测序仪只读取了基因组的70个序列片段,相对于常规测序方法获得的数据来说不过是很小的一部分,但这些信息足以让研究人员确定他们所检测的生物体的品种。 这项技术也使得科学家能够对此前无法识别的宏基因组(也称微生物环境基因组)样本中的生物体进行确认。“为微生物测序,首先需要能够在实验室中培养它们。”论文的主要作者、英国巴布拉汉研究所的塔米尔·钱德拉说,“这不仅耗费时间,而且有时候微生物不生长,为它们的基因组测序极其困难。”他表示,新方法可以直接对微生物测序,短时间内便可确定其“身份”。 论文的另一主要作者、威康信托基金会桑格研究所的哈罗德·斯维尔德洛说:“我们的技术可以在对所测序列没有任何先验知识、没有特定微生物试剂的条件下,在很短的时间内操作,这是一种很有前途的替代手段,可应用于控制感染等临床需要。”(记者陈丹) 总编辑圈点 长久以来,基因测序等围绕基因科学所展开的研究,都被人们贴上了从本源上解开人体生命奥秘、彻底解除遗传疾病威胁等殷切的标签。多国为提高社会健康水平,都开展了解码国民DNA的活动,有些甚至覆盖全基因组。然而,面对由30亿个碱基对构成的人类基因组,精确测序注定将是一场浩大而又漫长的工程。如何能快速、准确地将海量DNA数据转化为有帮助的实用信息,已经成为该领域科学家们面临的重大挑战之一。因而我们说,英国科学家此番取得的突破,不管是从整个学科研究的方法论层面,还是从临床应用的角度,都提高了基因研究服务于人类的速度。 《科技日报》(2012-12-13 一版)

  • 蛋白质数据库介绍

    蛋白质数据库1.PIR和PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过142,000条蛋白质序列(至99年9月),其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。PIR和PSD的网址是:http://pir.georgetown.edu/。数据库下载地址是:ftp://nbrfa.georgetown.edu/pir/。2. SWISS-PROT SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。SWISS-PROT的网址是:http://www.ebi.ac.uk/swissprot/。3. PROSITEPROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。PROSITE的网址是:http://www.expasy.ch/prosite/。4. PDB蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。RCSB的PDB数据库网址是:http://www.rcsb.org/pdb/。5. SCOP蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全α、全β、α/β、α+β和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库,这个库通常被用来评估各种序列比对算法。此外,SCOP还提供一个PDB-ISL中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。SCOP的网址是:http://scop.mrc-lmb.cam.ac.uk/scop/。6. COG蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。COG库的网址是:http://www.ncbi.nlm.nih.gov/COG。下载COG库和COGNITOR程序在:ftp://ncbi.nlm.nih.gov/pub/COG

  • 【转帖】蛋白质数据库介绍!

    蛋白质数据库 1. PIR和PSDPIR国际蛋白质序列数据库(PSD)是由蛋白质信息资源(PIR)、慕尼黑蛋白质序列信息中心(MIPS)和日本国际蛋白质序列数据库(JIPID)共同维护的国际上最大的公共蛋白质序列数据库。这是一个全面的、经过注释的、非冗余的蛋白质序列数据库,包含超过142,000条蛋白质序列(至99年9月),其中包括来自几十个完整基因组的蛋白质序列。所有序列数据都经过整理,超过99%的序列已按蛋白质家族分类,一半以上还按蛋白质超家族进行了分类。PSD的注释中还包括对许多序列、结构、基因组和文献数据库的交叉索引,以及数据库内部条目之间的索引,这些内部索引帮助用户在包括复合物、酶-底物相互作用、活化和调控级联和具有共同特征的条目之间方便的检索。每季度都发行一次完整的数据库,每周可以得到更新部分。PSD数据库有几个辅助数据库,如基于超家族的非冗余库等。PIR提供三类序列搜索服务:基于文本的交互式检索;标准的序列相似性搜索,包括BLAST、FASTA等;结合序列相似性、注释信息和蛋白质家族信息的高级搜索,包括按注释分类的相似性搜索、结构域搜索GeneFIND等。 PIR和PSD的网址是:http://pir.georgetown.edu/。 数据库下载地址是:ftp://nbrfa.georgetown.edu/pir/。 2. SWISS-PROT SWISS-PROT是经过注释的蛋白质序列数据库,由欧洲生物信息学研究所(EBI)维护。数据库由蛋白质序列条目构成,每个条目包含蛋白质序列、引用文献信息、分类学信息、注释等,注释中包括蛋白质的功能、转录后修饰、特殊位点和区域、二级结构、四级结构、与其它序列的相似性、序列残缺与疾病的关系、序列变异体和冲突等信息。SWISS-PROT中尽可能减少了冗余序列,并与其它30多个数据建立了交叉引用,其中包括核酸序列库、蛋白质序列库和蛋白质结构库等。利用序列提取系统(SRS)可以方便地检索SWISS-PROT和其它EBI的数据库。 SWISS-PROT只接受直接测序获得的蛋白质序列,序列提交可以在其Web页面上完成。 SWISS-PROT的网址是:http://www.ebi.ac.uk/swissprot/。 3. PROSITE PROSITE数据库收集了生物学有显著意义的蛋白质位点和序列模式,并能根据这些位点和模式快速和可靠地鉴别一个未知功能的蛋白质序列应该属于哪一个蛋白质家族。有的情况下,某个蛋白质与已知功能蛋白质的整体序列相似性很低,但由于功能的需要保留了与功能密切相关的序列模式,这样就可能通过PROSITE的搜索找到隐含的功能motif,因此是序列分析的有效工具。PROSITE中涉及的序列模式包括酶的催化位点、配体结合位点、与金属离子结合的残基、二硫键的半胱氨酸、与小分子或其它蛋白质结合的区域等;除了序列模式之外,PROSITE还包括由多序列比对构建的profile,能更敏感地发现序列与profile的相似性。PROSITE的主页上提供各种相关检索服务。PROSITE的网址是:http://www.expasy.ch/prosite/。 4. PDB蛋白质数据仓库(PDB)是国际上唯一的生物大分子结构数据档案库,由美国Brookhaven国家实验室建立。PDB收集的数据来源于X光晶体衍射和核磁共振(NMR)的数据,经过整理和确认后存档而成。目前PDB数据库的维护由结构生物信息学研究合作组织(RCSB)负责。RCSB的主服务器和世界各地的镜像服务器提供数据库的检索和下载服务,以及关于PDB数据文件格式和其它文档的说明,PDB数据还可以从发行的光盘获得。使用Rasmol等软件可以在计算机上按PDB文件显示生物大分子的三维结构。RCSB的PDB数据库网址是:http://www.rcsb.org/pdb/。 5. SCOP 蛋白质结构分类(SCOP)数据库详细描述了已知的蛋白质结构之间的关系。分类基于若干层次:家族,描述相近的进化关系;超家族,描述远源的进化关系;折叠子(fold),描述空间几何结构的关系;折叠类,所有折叠子被归于全α、全β、α/β、α+β和多结构域等几个大类。SCOP还提供一个非冗余的ASTRAIL序列库,这个库通常被用来评估各种序列比对算法。此外,SCOP还提供一个PDB-ISL中介序列库,通过与这个库中序列的两两比对,可以找到与未知结构序列远缘的已知结构序列。SCOP的网址是:http://scop.mrc-lmb.cam.ac.uk/scop/。6. COG 蛋白质直系同源簇(COGs)数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白,根据系统进化关系分类构建而成。COG库对于预测单个蛋白质的功能和整个新基因组中蛋白质的功能都很有用。利用COGNITOR程序,可以把某个蛋白质与所有COGs中的蛋白质进行比对,并把它归入适当的COG簇。COG库提供了对COG分类数据的检索和查询,基于Web的COGNITOR服务,系统进化模式的查询服务等。COG库的网址是:http://www.ncbi.nlm.nih.gov/COG。下载COG库和COGNITOR程序在:ftp://ncbi.nlm.nih.gov/pub/COG。

  • 【转帖】中美英等国发起千人基因组计划获重大成果

    由中美英等国科研机构发起的大型国际科研合作项目“千人基因组计划”10月28日在英国《自然》杂志上,以封面文章形式发布了迄今最详尽的人类基因多态性图谱,同时也在美国《科学》杂志上报告了在基因研究技术手段上的收获,相关成果标志着人类基因研究进入了一个划时代的新阶段。“千人基因组计划”由中国深圳华大基因研究院、美国国立人类基因组研究所、英国桑格研究所等机构于2008年启动,旨在绘制迄今最详尽、最有医学应用价值的人类基因多态性图谱。现在报告的是该计划第一阶段的分析成果。“千人基因组计划”共同主席、英国桑格研究所基因专家、《自然》封面文章主要作者之一理查德·德宾在接受记者采访时说:“这一计划现在取得了两个重要成果,第一是获得了迄今最详尽的人类基因多态性图谱,第二是探索出了研究基因多态性的新技术手段。”基因多态性是指人与人之间的基因差异。人的基因组总体上差不多,但在有些位置上你我他都不一样,存在各种基因变种,它们最终导致了人与人之间的差异。德宾说,在第一个成果方面,研究人员找出了1000多万个大大小小的基因变种,其中约800万个都是前所未知的。对于人群携带率在1%以上的基因变种,本次研究的覆盖率达到95%以上,得出了迄今最详尽的基因多态性图谱。这一成果在医学等领域有很高的应用价值,比如通过参照图谱,可以方便地找出致病的基因变种。在第二个成果方面,研究人员验证了在大型基因研究中综合使用多种基因测序手段的可行性。由于基因测序成本目前仍很高昂,如果能在“精测”一些基因序列的同时,对另一些基因序列只需“粗测”就能保证最终结果的准确性,将可以大幅降低基因测序研究的成本。《科学》杂志上的文章便侧重描述了技术手段方面的进展。德宾告诉记者,自十年前“人类基因组计划”完成以来,因为难以同时对许多人进行基因测序,基因研究一直只在较小的层面上进行。本次研究不仅使大规模测序成为可能,还绘制了一个详尽的基因图谱以供比对,这标志着人类基因研究进入了一个划时代的新阶段。他说,本次报告还只是基于“千人基因组计划”第一阶段中搜集的数百人的基因数据,而该计划的最终目标是获得欧、亚、美、非各洲不同人群中2500人的基因数据,预计在2012年发布的最终结果将可以覆盖99%以上的基因变种。据报道,“千人基因组计划”所获数据存放在公共数据库中,公众可免费查询。 (新华网)

  • 【转帖】我国科学家参与全球最大微生物基因组研究项目

    近日,深圳华大基因研究院宣布,我国科学家将参与全球最大微生物基因组研究项目,对来自全球的20万个样本进行环境DNA测序或宏基因组测序,从而建立一个全球性的基因图谱,并承担核心工作。该项目旨在全方位、系统性研究全球范围内微生物群落功能及进化多样性,以便更好地造福社会及人类。与以往的微生物研究有所不同,该项目的研究对象不仅集中于海洋和人体环境中微生物群落,还包括土壤、空气、淡水生态系统等整个地球表面的绝大多数的微生物群落。华大基因将负责亚洲地区所有样本的收集和鉴定,并对整个项目提供DNA提取、扩增、建库、宏基因组测序以及研发生物信息学分析流程所需的计算资源。这些信息学分析流程将为项目研究产生的海量数据提供一个分析框架。项目负责人、芝加哥大学和阿贡国家实验室的教授杰克·吉尔伯特博士表示:“华大基因在测序能力、测序技术和信息分析等方面已展现出卓越的能力。此项目是一个前所未有的最大的基因组测序项目,作为全球最大基因组学研究中心,华大基因的参与至关重要。”华大基因理事长杨焕明院士表示,微生物对地球上所有的生命具有至关重要的作用,而我们对微生物的复杂性和多样性认识不足,征服这个未知的领域非常有必要。华大基因拥有国际先进水平的测序平台和强大的生物信息学分析能力,可以为促进人类对微生物群落重要性的了解贡献力量。(来源:科技日报)

  • 微生物基因组测序的应用

    基因组测序和序列的组装,为快速研究该致病菌株的致病机理创造了条件。与此同时华大基因与德国汉堡-Eppendorf医疗中心合作,也宣布完成了对致病菌株的测序工作。Guenther说:"在有限的时间里完成了对微生物的全基因组测序,极大的方便了研究者从一个整体的水平上去研究微生物,进而揭示在这些目标微生物的基因组究竟发生了哪些改变。"事实上也的确如此,科学家根据从基因组测序的数据所获得的证据,将本次的致病型大肠杆菌鉴定为致病型大肠杆菌的一个新杂交品种,并且携带了一些抗性基因。"从宏观的基因组水平上来研究这类细菌,将在很大程度上革新我们对传染病暴发的认识,3-4天内完成对某种微生物的全基因组测序及基因标注,将会开启一个新的研究领域。"在新奥尔良召开的美国微生物学会年度会议上,一些研究者指出,分子鉴定的方法正被用来打造基因组传染病学这一领域,基因组传染病学致力于重构传染病暴发的过程,以求在将来能够对传染病能进行实时有效的监控和快速反应。

  • 世界首张梅花全基因组图谱完成

    http://img.dxycdn.com/trademd/upload/userfiles/image/2013/01/B1357710940_small.jpg梅花因其独特的花香,在很多诗词中成为人们吟诵的对象。那么,它的花香到底来自何处呢?我国科学家从基因组水平,揭示了合成梅花花香中重要成分乙酸苯甲酯的BEAT基因家族34个成员,并构建完成了首张梅花全基因组精细图谱。其研究论文在2012年12月27日《自然—通讯》亮点论文在线发表。我国梅花基因组项目首席专家、北京林业大学教授张启翔率领项目组,选取位于梅花起源中心的西藏野生梅花进行基因组测序,从基因组水平,揭示了合成梅花花香中重要成分乙酸苯甲酯的BEAT基因家族34个成员,在梅花基因组中显著扩增并且其中12个成员串联重复分布,从而使梅花具有独特的花香;推测梅花基因组中6个串联重复的DAM基因和其上游过多的CBF结合位点是梅花提早解除休眠的关键因子,从而解释“踏雪寻梅”之说。张启翔告诉记者,梅花全基因组测序的完成以及高密度遗传图谱构建,有助于揭示梅花花期早、花香独特等重要观赏性状的遗传基础,有助于挖掘与诸多重要性状相关的功能基因,为今后进一步揭示梅花花期、抗病调控机制、梅花及相关种属的分子育种奠定基础。研究中,项目组还揭示了蔷薇科植物进化规律。张启翔说,通过分析梅花的进化发现,梅与苹果发生分化后,并没有出现近期的全基因组复制事件,同时结合已完成的苹果和草莓基因组序列,成功重建了蔷薇科9条原始染色体,揭示了蔷薇科植物进化规律,为开展蔷薇科物种比较基因组学研究奠定重要的理论基础。据介绍,该科研成果由北京林业大学、深圳华大基因研究院及北京林福科源花卉有限公司等多家单位合作完成。目前,转录组数据组装及基因功能注释数据已在相关网站对外公开。

  • 改进的SDS法提取植物叶片基因组DNA

    一、实验目的 通过采用改进的SDS法提取植物叶片基因组DNA,使学生学习和掌握从植物组织中提取DNA的方法和原理。二、实验原理 基因组DNA的提取通常用于构建基因组文库、Southern杂交、RFLP、PCR分离基因和分子标记分析等。利用基因组DNA序列较长的特性,可以将其与细胞器或质粒等小分子DNA分离。加入一定量的异丙醇或乙醇,大分子的基因组DNA形成沉淀,而小分子DNA则附于管壁及管底,通过离心方法即可将它们分离,从而达到提取的目的。在提取过程中,若操控不当,基因组DNA会发生机械断裂,产生大小不同的片段,因此分离基因组DNA时应尽量在温和的条件下操作,如尽量减少酚/氯仿抽提、混匀过程要轻缓等,以保证得到较完整的基因组DNA。一般来说,构建基因组文库,初始DNA长度必须在100kb以上,否则酶切后两边都带合适末端的有效片段很少。而进行RFLP和PCR分析, DNA长度可短至50kb, 在该长度以上,可保证酶切后产生RFLP片段(20kb以下),并可保证包含PCR所扩增的片段(一般2kb以下)。不同生物(植物、动物、微生物)的基因组DNA的提取方法有所不同; 不同种类或同一种类的不同组织因其细胞结构及所含的成分不同,分离方法也有差异。在提取某种特殊组织的DNA时可参照文献和经验建立相应的实验方法, 以获得可用的DNA大分子。组织中的多糖和酶类物质对随后的酶切、PCR反应等有较强的抑制作用,因此用富含这类物质的材料提取基因组DNA时, 应考虑除去多糖和酚类物质。三、实验仪器和材料 台式高速离心机恒温水浴陶瓷研钵1.5ml 离心管移液器无菌枪头无菌牙签液 氮吸水纸四、实验试剂 DNA提取洗涤液100 mmol/L Tris•HCl(pH8.0),3%可溶性PVP,20 mmol/L 巯基乙醇,20 mmol/L EDTA(pH8.0))DNA裂解液(100 mmol/L Tris•HCl(pH8.0),20 mmol/L EDTA(pH8.0),500 mmol/L NaC1,1.5%SDS)酚/氯仿/异戊醇(v:v:v=25:24:1)5M KAc无水乙醇异丙醇70%乙醇含5g/ml RNase 的TE缓冲液

  • 【转帖】第三张“基因变异图谱”与第二代基因组测序技术

    第三张“基因变异图谱”与第二代基因组测序技术——评“千人基因组计划”首期研究成果的医学意义世界上任意两个人的基因99%都是相同的,而恰是那1%不同,负责着个体间的表型差异。《自然》杂志近期披露,当人体内携带有250到300基因变异位点的时候,相关基因就就会“沉默”。甚至,一个人只携带了 50到100基因变异位点,就可能患上某种疾病。10年前,“人类基因组计划”这一耗资30亿美元、历时10余年的伟大科学工程完成之际,人们以为得到了揭开自身生命奥秘的天书,生命科学也划时代地进入了“后基因组时代”。如今看来,当时得到的仅仅是人类基因组的“参考图谱”,对于人群里个体间的基因差异,或是更具医学意义的“基因变异图谱”来说,人们知之甚少。第三张“基因变异图谱”为了探寻个体间的基因差异,科学界在2002年启动了HapMap(人类基因组单体型图谱)计划。Hapmap在2005年完成的“第一张基因变异图谱”含有一百万个“单核苷酸多态性”(SNPs)位点;HapMap在2008年完成的“第二张基因变异图谱”含有三百一十万个SNPs位点。而此次“千人基因组”所公布的一期结果——“第三张基因变异图谱”,已经包含了一千五百万个SNPs位点。今年10月28日,《自然》杂志为此刊出的文章题目为“基于群体规模的基因变异图谱”,鲜明的指出,“千人基因组计划”首期研究成果,其最大优势在于:“第三张基因变异图谱”所采用的样本,针对了“大规模人群”。 远超过此前两张“基因变异图谱”所测定的样本数。绘制“第三张基因变异图谱”的所有数据,是基于两个核心家庭,6个个体的精确基因组测序,179个个体的低覆盖率基因组测序,以及七百多人的蛋白编码区的基因测序。检测人群数目庞大,人种涉及中国人、日本人、西欧人等。因此,第三张“人类基因变异图谱”的问世,可以从更深的层次上了解,种族之间、个体之间的基因差异。更具医学意义的是,对于人群中发生频率在1%以上的基因变异,本次研究的覆盖率达到95%以上。这就意味着:此前Hapmap计划所绘制的两张“基因变异图谱”中,没能涉及的“罕见病”致病基因,可能在“第三张基因变异图谱”中已经被标出。“基因变异图谱”的医学应用随着,“人类基因变异图谱”绘制的日臻完善,和商业化全基因组SNP 分型芯片成本的不断降低,以及新的统计方法和软件的出现, “全基因组关联分析”( Genome-Wide Associat ion Study , GWAS) 越来越多的应用于复杂疾病“易感基因”的确定。今年6月6日,安徽医科大学的张学军教授领衔的团队,通过对中国汉族和维吾尔族人群近2万份样本进行分析,在人类基因组的3个区域内发现与白癜风发病密切相关的4个易感基因。今年8月2日,中***事医学院贺福初院士领衔的蛋白质组学国家重点实验室,通过对大陆5个肝癌高发区的4500多名肝癌病例和对照的研究,发现了肝癌易感基因新区域(1p36.22)今年8月23日,新乡医学院的王立东教授联合国内18家医院,建立了数十万份的食管癌标本资料库,并首次在人类第10号和20号染色体上,发现两个食管癌易感基因(PLCE1和C20orf54)。基因变异有着很强的人种差异,相比国外此领域的研究成果,以上研究成果的临床意义,在于其是针对我国的特有人群。也就是说,以上研究成果在我国的临床上更具医学价值。更为可喜的是,以上研究成果均发表在此领域最为权威的《自然 遗传学》杂志上。我国在利用GWAS需找复杂疾病易感基因领域的研究,已经得到了世界的公认。

  • 【讨论】基因组越大越容易研究基因的调控机制么?

    霍华休斯医学研究所,Baylor医学研究所的科学家们近期在PloS One上发表最新研究性文章,文章标题为:Big Genomes Facilitate the Comparative Identification of Regulatory Elements,该文章解析了基因组大小对基因组学的研究带来的影响。基因组越大则更容易找出控制基因活性的DNA区域。在小基因组上,功能性元件紧紧地结合在一起。而在大基因组上,功能性元件分得比较散,于是也更容易找到控制基因活性的区域。 基因组分为结构基因和调控基因,要从基因组上找到功能元件并不难,难的是找到调控基因表达的机制,因此,对小的基因组来说,紧凑的结构给寻找调控区域带领更多的困难,而相对来说大基因组却容易多了。功能元件散落在基因组上,更便于寻找调控区域。大的基因组更便于研究非编码DNA和RNA,对研究基因调控也更为有利。而目前,研究生命的遗传物质DNA的科学家一直觉得,基因组越小越受欢迎,因为操作简单,可以节省大量的时间和精力,尤其在金钱方面也能更节约成本,测序的费用更低。甚至有科学家说,基因组小则基因排列更紧凑,垃圾DNA也越少。 [img]http://www.instrument.com.cn/bbs/images/affix.gif[/img][url=http://www.instrument.com.cn/bbs/download.asp?ID=137848]Big Genomes Facilitate the Comparative Identification of Regulatory Elements[/url]

  • 【分享】我国首次绘制完成大熊猫基因组精细图

    大熊猫基因组测序研究项目近日正式完成,并绘制出大熊猫基因组精细图。这是中国科学家第一次全面系统地对大熊猫基因组进行测序研究。 据介绍,大熊猫基因组测序研究结果表明,大熊猫有染色体21对,基因组大小2.4G,重复序列含量36%,基因2万多个。 这项研究由深圳华大基因研究院领衔,中国科学院昆明动物研究所、中国科学院动物研究所、成都大熊猫繁育研究基地和中国保护大熊猫研究中心共同参与。 研究结果还表明,大熊猫基因组仍然具备很高的杂合率和较高的遗传多态性;在已经进行全基因组测序的物种中,大熊猫基因组与狗的基因组最接近;数据分析结果同时还进一步支持了大多数科学家所持的“大熊猫是熊科的一个亚种”这种观点,证明了熊科内部各类群的分类情况。 据悉,大熊猫基因组精细图这一研究成果,填补了大熊猫基因组及分子生物学研究的空白,将从基因组学的层面上为大熊猫的保护、疾病监控及其人工繁殖提供科学依据。

  • 【原创大赛】短柄草全基因组密码子用法分析分析

    【原创大赛】短柄草全基因组密码子用法分析分析

    [align=center]短柄草全基因组密码子用法分析分析[/align]摘要:本研究运用CodonW程序分析了短柄草全基因组的密码子使用特性,并且通过对应分析探讨了若干重要因子对短柄草全基因组序列密码子用法的影响。结果表明短柄草基因组存在高[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]含量和低[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]含量的基因,它们在密码子使用上差异较大。Nc-plot曲线表明基因组的密码子组成受到碱基组成的影响;对应分析显示,在DNA水平上发生的核苷酸突变可能是造成短柄草基因组密码子使用偏好的主要因素;同时,基因长度和蛋白质疏水性对密码子的使用也存在一定偏性,但影响程度不大。确定了UUC等27个以G或C碱基结尾的密码子为“最优密码子”,研究结果可为短柄草基因的鉴定、表达、结构、功能等的深入研究提供参考。关键词:同义密码子偏好性,短柄草基因组,对应分析近年来,随着分子生物学的快速发展,许多小基因组的低等生物和高等模式生物的全基因组序列均被测定,为利用生物信息学方法挖掘海量基因组数据提供了便利。密码子是生物体内遗传信息传递的基本环节,是核酸携带信息和蛋白质携带信息间对应的基本规则。在长期进化过程中,任一物种的基因都会逐渐适应宿主的基因组环境,而形成特定的且符合宿主基因组的密码子用法,因此不同生物具有不同的密码子使用模式。以生物基因组数据为基础,研究其密码子使用模式,为深入研究基因的结构、功能和基因组进化,以及指导基因转化等具有重要意义。密码子具有简并性,生物在同义密码子的使用上并不是完全随机的,而是具有一定的偏向性,对有的密码子使用频率高,有的使用频率低,甚至避免使用,这种不均衡使用密码子的现象普遍存在于原核和真核生物中。早在20世纪70年代,人们在研究基因的异源表达时,就已经意识到密码子偏性的重要性[1],随着不同生物基因组数据的获得和各种数据库的构建,更多的研究者对密码子偏性的研究产生了浓厚的兴趣,尤其在分子进化,翻译调控等研究领域,通过对不同物种的密码子使用偏性的大量研究[2~4],发现不同物种的基因在密码子使用上存在着明显的偏性。 短柄草是一种广泛分布于温带地区的禾本科植物,与小麦,大麦和燕麦同属早熟禾亚科,原产于非洲北部,欧洲南部和亚洲中部,包含约10个亚种。该植物为一年生,自花授粉,植株高度15~20cm,生育期70~80d,柄草植株较小,适应性强,不象种植水稻那样需要严格的生长条件。生育期短,籽粒产量较高,一年可以繁殖4~5代,繁殖系数达140左右。未成熟胚和成熟胚愈伤组织诱导率高,农杆菌介导和基因枪介导的转化体系已经建立,胚性愈伤组织分化率90%以上,转化效率最高可达55%左右。基因组小,染色体少,DNA重复序列低,获得突变体容易,突变性状容易显现,具备了模式植物的所有基本特征。加之短柄草基因组序列与黑草麦,小麦,大麦等早熟禾亚科植物高度相似,很多重要农艺性状与温带禾草类植物相似,如株型,穗型,粒型,抗逆性,生长习性和病原菌等,其中麦类作物白粉病菌,条锈病菌和稻类作物瘟病菌都可侵染短柄草植株,引起相应症状[7]。其籽粒不含高分子量麦谷蛋白亚基,低分子量麦谷蛋白亚基也很少,并与小麦一样具有二倍体,四倍体和六倍体,因此短柄草是小麦等基因组庞大的重要农作物理想的模式植物,借此来获得目前小麦等早熟禾类植物中尚缺少的遗传信息和基因共线区,进而对小麦等重要植物进行基因定位,克隆,突变,测序和功能等方面的研究[8]。 目前,在短柄草的生物学、细胞学和遗传学特性方面开展了大量研究,并且其全基因组测序也基本完成[9],为深入研究其密码子用法提供了便利。因此本研究将以短柄草全基因组序列为基础,分析其基因的密码子用法特性和影响密码子使用的因素等,其研究结果将对指导转基因及对基因进行特定分子改造,提高其在短柄草中的表达效率和完善基因预测软件,提高基因预测和基因组注释准确性等均具有重要的参考价值,同时也为深入开展基因结构和功能,分子进化等研究提供理论基础。1.实验材料与方法1.1材料 短柄草全基因组DNA序列来源于短柄草官方数据库(http://www.brachypodium.org/node/8),根据基因组序列的注释信息,获得蛋白编码基因序列,为了减少长度较短的基因变异带来的样本误差,根据国际惯例,去除小于300bp的基因,去除中间不表达的密码子,终止密码子。编写程序提取剩下的蛋白编码基因的CDS(coding sequence)序列。1.2方法用codonw软件计算短柄草全基因组的密码子用法相关参数,主要包括有效密码子数(Effective Number of Codon,ENC)、基因的G+C含量([url=https://insevent.instrument.com.cn/t/Mp]gc[/url]%)、[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]3s%、相对同义密码子使用度(relative synonymous codon usage,RSCU)、氨基酸组分指数(平均亲水性值(gravy))、基因长度即氨基酸数(L_aa)。其中,有效密码子数(Effective Number of Codon,ENC)描述密码子使用偏离随机选择的程度,能反映密码子家族中同义密码子的非均衡性的偏好;其取值范围在20到61之间,即如果每种氨基酸只使用一种密码子则有效密码子数为20,如果各种同义密码子的使用机会完全均等,则有效密码子数为61,数值越小偏性越强。此值是以描述密码子使用偏离随机选择的程度,能反映密码子家族中同义密码子的非均衡性的偏好。基因密码子偏爱程度越大,ENC值越小。RSCU是指对于某种特定的密码子在编码对应氨基酸的同义密码子间的相对频率;[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]3s%表示同义密码子第三位碱基的G+C的含量。为进一步了解该家族基因密码子使用特征和影响密码子使用的因素,对7个基因的相对同义密码子使用度进行了对应性分析(correspondence of analysis,COA)。2 结果与分析2.1 基因的碱基组成对密码子使用的影响图一 短柄草基因NC值散点图[img=,515,409]https://ng1.17img.cn/bbsfiles/images/2019/10/201910311236371230_3093_3295053_3.png!w515x409.jpg[/img]2.2短柄草基因密码子使用特性的对应性分析[img=,690,535]https://ng1.17img.cn/bbsfiles/images/2019/10/201910311237226440_1452_3295053_3.png!w690x535.jpg[/img][img=,690,534]https://ng1.17img.cn/bbsfiles/images/2019/10/201910311237233450_935_3295053_3.png!w690x534.jpg[/img]2.3 确定最优密码子Phe UUU 0.05 (323) 1.23 (19733) Ser UCU 0.22 (990) 1.60 (23834) UUC* 1.95 (13527) 0.77 (12294) UCC* 2.55 (11715) 0.64 (9499) Leu UUA 0.02 ( 93) 0.83 (11755) UCA 0.14 (629) 1.52 (22651) UUG 0.16 (1003) 1.37 (19558) UCG* 1.53 (7023) 0.35 (5159) CUU 0.14 (847) 1.55 (21987) Pro CCU 0.22 (1306) 1.57 (17584) CUC* 3.38 (20676) 0.61 (8661) CCC* 1.35 (7940) 0.47 (5299) CUA 0.07 (452) 0.70 (9983) CCA 0.20 (1184) 1.62 (18078) CUG* 2.23 (13637) 0.94 (13401) CCG* 2.22 (13058) 0.34 (3792) Ile AUU 0.12 (398) 1.41 (21216) Thr ACU 0.10 (401) 1.46 (16515) AUC* 2.76 (9124) 0.70 (10557) ACC* 1.75 (7291) 0.66 (7397) AUA 0.12 (380) 0.89 (13461) ACA 0.12 (509) 1.56 (17636) Met AUG 1.00 (8512) 1.00 (20892) ACG* 2.03 (8478) 0.32 (3563) Val GUU 0.10 (693) 1.67 (23852) Ala [url=https://insevent.instrument.com.cn/t/Mp]gc[/url]U 0.14 (1914) 1.65 (26184) GUC* 1.71 (12491) 0.63 (9025) [url=https://insevent.instrument.com.cn/t/Mp]gc[/url]C* 1.98 (27398) 0.58 (9131) GUA 0.05 (349) 0.75 (10713) [url=https://insevent.instrument.com.cn/t/Mp]gc[/url]A 0.13 (1802) 1.48 (23459) GUG* 2.14 (15605) 0.95 (13562) [url=https://insevent.instrument.com.cn/t/Mp]gc[/url]G* 1.75 (24170) 0.29 (4678) Tyr UAU 0.05 (229) 1.28 (14480) Cys UGU 0.06 (194) 1.10 (9360) UAC* 1.95 (8126) 0.72 (8075) U[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]* 1.94 (6645) 0.90 (7595) TER UAA 0.42 (172) 0.82 (335) TER UGA 1.63 (665) 1.30 (530) UAG 0.94 (384) 0.87 (356) Trp UGG 1.00 (4992) 1.00 (10053) His CAU 0.15 (598) 1.42 (16785) Arg CGU 0.16 (750) 0.85 (6945) CAC* 1.85 (7568) 0.58 (6825) C[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]* 2.75 (12565) 0.49 (4043) Gln CAA 0.15 (627) 1.05 (20215) CGA 0.11 (500) 0.64 (5273) CAG* 1.85 (7975) 0.95 (18259) CGG* 1.92 (8761) 0.55 (4527) Asn AAU 0.12 (465) 1.31 (26650) Ser AGU 0.05 (235) 1.13 (16754) AAC* 1.88 (7141) 0.69 (13985) A[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]* 1.52 (7002) 0.77 (11441) Lys AAA 0.11 (552) 0.98 (27077) Arg AGA 0.10 (445) 1.94 (15854) AAG* 1.89 (9406) 1.02 (28423) AGG 0.96 (4387) 1.53 (12516) Asp GAU 0.15 (1344) 1.44 (39136) Gly GGU 0.11 (882) 1.34 (18423) GAC* 1.85 (16539) 0.56 (15322) G[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]* 2.53 (20795) 0.71 (9826) Glu GAA 0.17 (1437) 1.13 (36292) GGA 0.19 (1522) 1.26 (17423) GAG* 1.83 (15812) 0.87 (27746) GGG* 1.18 (9700) 0.69 (9476) 注:Number of codons in high bias dataset 372333 Number of codons in low bias dataset 915109标注*的密码子是(p 0.01)3 讨论密码子使用偏好是突变偏好、自然选择和遗传漂变等共同作用的结果,与碱基组成、翻译选择压力、基因表达水平、基因长度、蛋白质氨基酸组成、碱基突变频率和模式、mRNA二级结构稳定性等很多因素有关[17]。张晓峰[18]等研究表明,单子叶植物基因组的[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]含量在同义密码子使用偏性的产生过程中起着决定性的作用,同义密码子使用偏性强烈的基因往往偏爱使用C或G结尾的密码子,且第三位密码子突变往往是密码子偏好性发生变化的决定原因。短柄草基因密码子使用模式的调查表明其中有高含量的[url=https://insevent.instrument.com.cn/t/Mp]gc[/url],并且[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]3的含量高于[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]1和[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]2。这表明相对于以A和T结尾的密码子而言,这些基因偏好于使用以G或C结尾的密码子。从原核生物到真核生物的基因中,密码子使用偏好是一个被广泛研究的重要进化现象。研究发现,许多因素,比如碱基组成,基因表达水平,蛋白质疏水性等影响着密码子的使用。为了解释密码子使用偏好的起因,也有许多假设被提了出来。其中被广为接受理论是“选择——突变——漂移”模型。该模型认为在对偏好密码子的选择和通过突变-漂移对非偏好密码子的保留之间,同义密码子的使用偏性存在一种平衡。本文的研究结果显示,[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]3s值与ENC值密切相关,并且基因也位于第一轴线,揭示了碱基组成是影响短柄草基因组中的密码子使用偏好的主要因素。碱基组成是影响短柄草基因密码子使用的主要因素,基因长度和蛋白质的疏水性在短柄草基因密码子使用中也起到了一定的作用,相似的结果在水稻、小麦中被发现[15,19]。本研究发现,在基因长度和[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]之间存在很强的负相关性。这表明,高[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]含量的基因越短,密码子偏好就越大。可能的原因是富含AT基因的翻译效率比富含[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]基因的翻译效率更高,这种效率的差异对长的基因更为重要。通常,全基因组的基因表达值在许多多细胞真核生物中并不能得到,特别是基因表达水平在不同的组织和不同发育阶段不一样时。因此,要定量相当困难。在短柄草基因组中,目前还缺少相当数量的基因表达的准确数据。另外,我们发现[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]含量特别是在第三个碱基位置的[url=https://insevent.instrument.com.cn/t/Mp]gc[/url]含量较大的影响着密码子的偏好时,暗示着碱基突变可能是重要因素,同时,碱基突变又受控于翻译选择。所以,尽管基因表达水平影响着密码子的使用,但这影响还是远远小于核苷酸组成对密码子使用的影响。因此,我们没有进一步分析基因表达的影响。通过优化密码子,提高外源基因在微生物、植物、动物中的表达已有不少成功报道,而确定最优密码子可为合理有效进行密码子改造提供可靠信息。本文确定了UUC等27个密码子为短柄草全基因组的最优密码子。分析结果可为指导转基因及对基因进行特定分子改造,提高其在短柄草中的表达效率和完善基因预测软件,提高基因预测和基因组注释准确性等提供重要的参考价值。参考文献[1] Stanley D,Farnden K J F, MacRae E A. Plant a-amylases:Func-tions and roles in carbohydrate metabolism[J]. Biologia,Bratislava,2005.60(suppl l6):65-71[2] Smith AM. Zeeman SC, Smith S M. Starch degradation[J]. Annu Rev Plant Biol,2005,56(25):73-98[3] Asatsuma S, Sawada C, Itoh K et al. Involvement of α-amylase I-1 in starch degradation in rice chloroplasts[J]. Plant Cell Physiol,2005,4:858-869[4] Kaplan F, Guy C L. β-amylase induction and the protective role of maltose during temperature shock[J]. Plant Physiol, 2004, 1:1674-1684 [5] Kaplan F,Guy C L. RNA interference of Arabidopsis beta-amylase 8 prevents maitose accumulation upon cold shock and increases sensitivity of PSII photochem-ical efficiency to freezing stress[J]. Plant J.2005,44(13):730-743[6] Joho Mundy, Anders Brandt. Messenger RNAs from the Scutellum and Aleurone of Germinating Barley Encode (lm3,14)--D-Glucanase, a-Amylase and Carboxypeptidase[J]. Plant Physiol, 1985,79(5):867-871 [7] 言普,李桂双.高压对水稻种子细胞膜透性和淀粉酶活性的影响[J]. 浙江大学学报(农业与生命科学版),2007,33(5):174-179[8] Monica M, Sanwo and Darleen A. DeMason. Characteristics of a-Amylase during Germination of Two High-Sugar Sweet Corn Cultivars of Zea mays L[J]. Plant Physiol, 1992,99(8):1184-1192[9] Goldman N , Yang Z. A codon based model of nucleotide substitution for protein coding DNA sequences[J]. Molecular Biology and Evolution,1994,11(9):725-736[10] Schmidt W. Phylogeny reconstruction for protein sequences based on amino acid properties[J]. Mol Evol,1995,41(8) :522-530[11] 时成波, 吕安国.改造稀有密码子提高SEA蛋白表达量[J]. 生物工程学报,2002,18(4):477-480[12] Ghosh T C , Gupta S K, Majumdar S. Studies on codon usage in Entamoeba histolytica[J]. Int J Parasitol,2000,30(6): 715-722[13] Musto H, Cruveiller S. Translational selection on codon usage in Xenopus laevis[J].Molecular Biology and Evolution,2001,18(9):1703-1707[14] 廖登群,张洪亮等. 水稻(Oryza sativa L.)a-淀粉酶基因的进化及组织表达模式[J]. 中国农业大学学报,2009,14(5):1-11[15]刘汉梅,何瑞. 玉米密码子用法分析[J]. 核农学报,2008,22(2):141-147[16] Jia M, Luo L. The relation between Mrna folding and protein structure[J]. Biophys Res Commum, 2006,343(4):177-182[17] 赵耀,刘汉梅. 玉米waxy基因密码子偏好性分析[J]. 玉米科学,2008,16(2):16-21 [18] Wang H C,Hickey D A. Rapid divergence of codon usage patterns within the rice genome[J].BMC Evol Biol,2007,15(8):347-356

  • 【转帖】Science:最“牛”基因组

    历时6年,300余研究者花费5300万美金,牛的基因组序列终于呈现在世人面前,相关的文章发表在Science杂志上。这是继2000年人类基因组破解以来,又一动物基因组序列被破译。负责人称,牛的基因组的破译不仅有助人们更深入了解牛的驯化过程,提高牛肉,牛奶的质量改善人类的生活质量,还有助了解人类的疾病。最新的一期Science杂志刊登了两篇独立研究牛基因组的文章,一篇Genome-Wide Survey of SNP Variation Uncovers the Genetic Structure of Cattle Breeds;一篇The Bovine Genome Sequencing and Analysis Consortium,该项目对牛的基因组进行了分辨率精细的测序。另外还有一篇评论性的文章,The Genome Sequence of Taurine Cattle: A Window to Ruminant Biology and Evolution,将研究焦点放在对牲畜进化和驯养历史的追踪工作上。研究人员发现,牛的基因组含有至少2万2000个基因,其中大约有14345个基因在7种其它的哺乳动物种系中具有对应的基因。 这些发现显示,在牛的进化和驯养过程中,基因的数量和构成的变化是如何改变牛的生物学系统并对它们的繁殖、免疫能力、乳汁分泌和消化造成了最为显著的影响的。 这些研究人员还对来自19个不同地理和在生物学上混杂繁殖的497头不同牛只DNA中的3万7470种差异进行了调查。他们发现,母牛的进化与我们人类本身的进化截然不同,它们从一个有着非常大的有效祖先群体到近期发生的快速的群体下降,而不是反过来的那种一种情形。 文章的作者将这种进化归因于与以往驯化活动、因农业专门化所作的选择以及与动物豢养的形成相关的遗传学瓶颈。 但是,牛品种中的多样性的现有水平看来至少与那些在人类群体中的水平一样地强健有力。 在一篇Perspective中,Harris Lewin对这些发现进行了更为详细的探讨,并重点介绍了其对人类健康和可持续性农业的意义。

  • 我国科学家参与番茄全基因组研究获重大进展

    由来自中国、美国、荷兰、以色列等14个国家的300多位科学家组成的“番茄基因组研究国际协作组”,历时8年多的艰苦努力,于近日完成了对栽培番茄全基因组的精细序列分析。今天,国际权威学术期刊《自然》以封面文章发表了这项重大科学成果。  番茄是研究果实发育的经典模式植物,我国科学家在这项国际番茄基因组研究中作出了重要贡献。作为中方协调人,中科院遗传与发育生物学研究所研究员李传友和薛勇彪负责第3号染色体的测序工作,中国农科院蔬菜花卉研究所研究员黄三文和杜永臣负责第11号染色体的测序工作。番茄基因组有12条染色体,中国科学家高质量地完成了番茄基因组测序总任务的1/6,标志着我国成为番茄基因组学研究的强国之一。  8年来,国际协作组采用“克隆连克隆”和“全基因组鸟枪法”相结合的测序策略,在解码的番茄基因组中,共鉴定出约34727个基因,其中97.4% (33840个)的基因已经精确定位到染色体上。番茄基因组的解读,是科学家通过国际合作完成的又一个高质量的模式植物的基因组序列分析,对于不同物种之间的比较基因组学研究具有重要价值,这项工作将极大推动番茄乃至包括马铃薯、辣椒、茄子等在内的茄科植物的功能基因组研究,为培育具有高产、优质、抗病虫害、抗逆等优良性状的番茄新品种打下了良好的基础,对推动全世界的番茄生产具有重要意义。  有关专家表示,我国蔬菜种业面临着强大的国际竞争。中国在国际蔬菜基因组研究领域具有优势地位,而如何把基础科研的优势转化为产业优势,是目前面临的主要挑战。科学家建议,应在进一步巩固蔬菜基因组研究优势的基础上,加强蔬菜作物分子设计育种体系的建设,并与常规育种相结合,加速有自主知识产权优良品种的培育,这对于支撑我国蔬菜产业可持续发展、提升我国蔬菜种业的国际竞争力具有重要意义,也是不可错过的历史机遇。

  • 【分享】科学家提出基因测序数据分类新标准

    最近,美国洛斯阿拉莫斯国家实验室(LANL)的一个遗传学小组和一国际财团联合提出了一套旨在阐明可公开获取的基因测序数据信息的质量标准。新标准最终可使遗传研究人员开发出更有效的疫苗,或有助于公共健康部门或安全人员更迅速地应对潜在的公共卫生突发事件。 在10月9日的《科学》杂志上,LANL遗传学家帕特里克钱恩和他的同事提出了6个基因组测序数据标签,可将基因测序数据按其完整性、准确性以及由此带来的可靠性进行归类。这些标签可在公共数据库中获取,而目前使用的标签仅为两个。此项成果的重要性在于,研究人员必须每天使用这样的数据,以对未知遗传数据和已知生物体的遗传数据进行相互参照,而有了这样的新的分类标准,数据的获取与对比工作的效率将大大提高。 每个生物体的细胞内都有DNA,由4个分子构建模块(或称碱基对)组成,碱基对排成特定序列时就可构成基因。这些基因序列可包含对生物体有益或有害的遗传指令。基因组研究人员编目了数以千计的基因数据,并将其放在公众数据库中以供其他研究者使用。然而,由于基因数据的复杂性,公共数据库中的遗传信息范围从粗略到精致一概都有。过去,这些基因数据常被归类为“草图”和“成品”两大类,给基因数据的准确性留下了太多的不确定性。 钱恩表示,在过去几年里,基因测序技术已取得重大进步,公众可获得的基因数据已呈爆炸性增长,每天产生的碱基对序列数据量要比过去几年产生的数据量还要多几十亿次。不同的测序技术具有不同的精确度。一个序列中的高度不确定性可能会引导研究人员走向一条耗时长达一年甚至数年的错误道路。因此,有必要建立一个标准,为研究人员提供对遗传测序数据质量的明确评估。 钱恩联合了大大小小的数个基因组测序中心,如美国能源部联合基因组研究所、桑格研究所、人类微生物群系项目Jumpstart联盟测序中心、密歇根州立大学以及安大略省癌症研究所等,共同提议将现有的测序数据分类从两大类充实为6大类。这6个标准涵盖了从代表公众提交最低要求的“标准草图序列”到代表最高标准的“完成序列”,而“完成序列”的验收标准是每10万个碱基对中最多只能包含一个错误。 LANL基因科学小组负责人、联合基因组研究所LANL研究中心主任克里斯戴特表示,该项研究的目的是为了让所有主要的基因组中心和基因组研究小组都能用上符合其需要的分类基因组测序数据。而为了尽可能保证基()因组序列的完整性,一些较小的研究中心也可采用这个分类等级来建立和提交其研究成果,以帮助其他科学家了解既已完成的工作。(科学网)

  • 科学家们绘制出心脏基因组蓝图

    来自美国加州大学旧金山分校格拉斯通研究所的研究人员揭示出利用胚胎心脏细胞构建出完全功能性的心脏所需的上百个基因开关的精确开闭次序和时间。这项发现有助于对一些人先天性心脏病的遗传基础产生新的认识。在一项刊登于Cell期刊上的研究中,研究人员利用干细胞技术、下一代DNA测序和计算工具来将心脏细胞如何变成心脏的“基因组蓝图”拼接在一起。这些发现提供新的希望来对抗威胁生命的心脏缺陷,如心律不齐和室间隔缺损(ventricular septal defect)。在这项研究中,研究人员获取来自小鼠的胚胎干细胞,然后通过在盘碟中模拟胚胎发育而让它们分化为跳动的心脏细胞。接着,他们提取发育中的心脏细胞和成熟的心脏细胞内的DNA,并利用一种被称作ChIP-seq的高级基因测序技术来观察DNA中的表观遗传标记。论文共同第一作者Jeffrey Alexander说,“但是发现这些标记只是成功的一半,因此我们接着不得不破解它们编码心脏形成的哪些方面。为此,我们利用格拉斯通研究所生物信息学核心(Gladstone Bioinformatics Core)的计算能力。这允许我们获得基因测序中所收集的大量数据,并且将这些数据组装成一种可读的和有意义的将心脏细胞如何变成心脏的蓝图。”研究人员获得了一些意料之外的发现。他们发现在心脏细胞中,一组基因似乎以一种协作的方式一起发挥作用:在胚胎发育的指定时间,这组基因一起开启和关闭。他们不仅鉴定出很多参与心脏形成的新基因,而且也精确地确定地这些新发现的基因如何与之前已知的基因相互作用。绘制出心脏的基因组蓝图对人类健康的影响非常深远。鉴于研究人员理解这些基因如何控制心脏形成,他们能够开始将心脏病如何破坏这种调节的细节汇聚在一起。最终,他们能够寻找疗法来阻止、中断或抵消患有先天性心脏病的儿童体内这种调节遭到的破坏。

  • 后基因组时代研究热点 ——genome-wide association study在遗传病研究中的应用

    随着人类基因组图谱的完成,对基因组的分析已经成为新的研究热点。通过对人类基因组序列的分析得到人群中与有遗传倾向或受遗传与环境因素共同影响疾病的相关基因更成为了基因组分析研究中的热点。这种对genetic risk factors的分析对临床医学和流行病学都有很大启发,促进了疾病诊断、治疗和预防等各方面的改善。在基因组分析的方法中,目前最有效的是genome-wide association study,该方法与以前的linkage analysis相比有更大的power,与candidate-gene studies相比coverage更全面,不局限于已知的可能与疾病相关的染色体区域。本文对association study的思想、方法等做简单介绍。Genome-wide association study是建立在对SNP(single nucleotide polymorphism)的确定和assay的基础上的。要真正理解Genome-wide association study我们就要首先明确SNP的相关知识。任何两个人的基因组序列都是99.9%一致的,但那其余0.1%的不同却可能对个人对某些疾病的易感性有很大影响。在基因组中每一个loci都可能有不同的alleles,基因组中最常发生的polymorphism就是single nucleotide polymorphism,即SNP, 这些SNP在基因组中的密度大约是每300bp一个。研究中通常只选取minor allele frequency(MAF)在5%以上的SNP位点进行比较,以确保统计学意义。通过对遗传mechanism的研究发现,相隔在50kb以内的SNP在由亲代传给子代的过程中更容易发生linkage disequilibrium(LD),即有physical proximity的SNPs更倾向于以block的形式遗传,所以在实际应用中每一个block中只要选择一个与其它SNPs关联度最大的SNP位点作为tag SNP,就可以通过比较和assay各tag SNP的异同,确定一个基因组的haplotype类型。在基因组研究中将个体样本的SNP按在染色体上的排列顺序单独列出,得到的序列就称为是该样本genotype的haplotype组成。国际上的HapMap Project通过选取各代表性人种的大量个体,已经得到了由多于3.1 million SNPs标记的annotated,high-resolution map。此后的具体实验中只要将case组的haplotype与已得到的map进行matching,就可以知道可能与疾病易感性相关的SNP位点,进而得到相关的染色体区域。有了关于SNP的知识,我们就可以理解,Genome-wide association study是一种通过high-density array 进行genotyping从而确定polymorphism,并和统计学方法相结合,进而得出与疾病相关可能性很大的genetic risk factors的方法。Genome-wide association study 所确定的可能与遗传易感性相关的SNPs通过进一步的与control group中相对应的SNPs的比较而得到确认。(有时还要进行在第二个cohort中的fast-trackassay。)Genetic risk factors主要分两种类型,一是DNA序列的碱基改变,另一个是DNA序列的copy number改变。通常的association study只能确定那些和moderate risk有关的DNA序列(流行病学上对环境影响因素也只能确定那些与moderate risk有关的序列)。对碱基改变的测定在Robert Sladek 等人确定II型糖尿病(T2DM)相关loci的研究中有很充分的说明。这项研究是该种方法的标准研究,它以article的形式刊登在Nature上。它分为两个阶段,第一阶段是对有1,363个个体的法国case-control cohort的392,935个作为marker的SNPs进行genotpyping检验,第二阶段是针对第一阶段结果中与T2DM相关最显著的59个SNPs的rapid conformation。在genome-wide association study中样本的选取是很重要的,比如Sladek的这项研究中在第一阶段的样本中考虑到了要增加样本中risk alleles的含量,要尽量保证提供样本个体的表型一致,同时还要尽量排除其它系统误差对统计结果的影响。在研究中Sladek等人应用了在SNP assay中广泛使用的两个平台:Illumina Infinium Human 1 BeadArrays和Human Hap300 BeadArrays来筛查从Phase I HapMap得到的tag SNPs。该研究确定了四个有导致患common diabetes mellitus风险的variants的loci,其中一个恰好是已知与diabetes mellitus相关的TCF7L2基因,这也证明了该实验的准确度,从而也证明了genome-wide association study在elucidation of genetic traits中的可行性。DNA序列copy number的改变的检测在Lupski的feature文章中做了介绍。传统上的分子医学模型是以sickle cell disease为模型的单基因改变从而使合成的蛋白发生变异所导致的遗传疾病。但是随着人类基因组reference sequence的完成和能测定基因组改变的技术的发展,人们发现事实上基因组中由于deletion和duplication所造成的碱基对的改变是SNP所致碱基对改变的两到三倍,而且即便是在亲缘关系很近的个人之间也有很多这种由deletion和duplication所造成的基因组结构的不同。Lupski认为,这种genomic segments的deletion和duplication与sporadic disease的发生是有关的(可能是单一亲代的基因组发生rearrangement就导致疾病发生,也可能是父母双方的变异都不足以起到影响自身功能的程度,单两者在子代中的结合导致了疾病的发生)。Redon等人的研究确认了1,400个发生copy-number variation的区域,这些区域涵盖了14.5%被认为与遗传疾病相关联的基因,相关数据可以在OMIM(http://www.ncbi.nlm.nih.gov/omim)的数据库中找到。可能导致很多复杂的mental-retardation疾病的Submicroscopical genomic deletions and duplications在临床上需要用genomic array的DNA chips确定。一旦确定某疾病是与gene dosage的异常有关,那么临床治疗和药物研发的中心都要从修正不正常蛋白的功能转向修正它们的不正常含量。鉴于variation in genomic rearrangement的普遍性,今后的association study和linkage analysis都应考虑copy number对疾病易感性的影响。最后,也许一些常见的行为表型(phenotype in behaviors)也可能是受这种个体间DNA序列copy number的不同影响的,这需要进一步的研究。在genome-wide association analysis应用中的关键知识是DNA chips的原理和应用以及统计分析。用DNA chips做SNP assay,简单说来是首先在chip上做好可能的SNPs的各种探针,然后取样本做PCR,得到的扩增样本与chip上的探针杂交,最后根据得到的荧光的位置判定样本的基因组成。随着相关技术的发展,现在的SNP chips已经可以在一个样本上检查超过500,000个SNPs。正是通过这样的方法,常见病的inherited genetic underpinnings正被一点点发现。今年的NEJM上有多篇相关报道,包括了前列腺癌、乳腺癌、糖尿病以及冠状动脉疾病。但是伴随着数据量变得前所未有的大,随之而来的从海量数据中得出统计学上有意义的关系的难度也迅速增大,因为随着数据量的扩大,在每一次assay中得到的假阳性结果数量也变大很多。面对这种情况,传统的统计方法是采用Bonferroni approach。(比如对于500,000个样本,将一般的p值0.05除以500,000,得到我们采用的cutoff p值0.0000001,这个值也被称为是genome-wide significance。)但实际中由于SNP chips的价格昂贵,所以大部分的实验检测得到的样本是很有限的;或者由于虽然基因型确实与疾病易感性相关,但是这种关联程度很低;或者由于实验中会采取分步进行assay的方法,这时即便是有很强关联程度的基因型在第一阶段都很难达到0.0000001这以标准,这些情况都会导致Bonfirroni approach的不合适。鉴于以上原因,在genome-wide association study中更让人信服的不是p值的stringency有多高,而是由一组样本得到的association在多大程度上可以在其它同样大规模的重复实验中得到证实。针对同一疾病进行的a

  • 【分享】共生体基因组计划启动

    近日,深圳华大基因研究院和美国科学家共同发起“共生体基因组计划”。该计划将对海蛤蝓(又称绿叶海蜗牛)及藻类饵料进行基因组测序。有科学家认为,海蛤蝓可能是“生命之树”中动植物界的交叉点。海蛤蝓的细胞能够从藻类获取叶绿素,进行光合作用,从而为其所有生命活动提供足够的能量,包括繁殖。迄今为止,科学家在海蛤蝓基因组里发现了大约十多种藻类基因,这些基因使这种生物在叶绿素合成通道和碳固定循环中具有集光蛋白质和酶类的功能。随着研究的深入,不断有新的藻类基因在海蛤蝓基因组中被发现。海蛤蝓通过自身内被转移的藻类基因合成叶绿素,进行光合作用。这种神奇的共生现象第一次证明了一套完整的生物合成途径可以从一种多细胞生物传递到另一种多细胞生物。华大基因有关专家表示,通过对藻类和海蛤蝓的基因组进行比较,不仅将在宿主细胞中发现一组能够进行持续光合作用的基因,而且能够找到转移的特性,包括转移基因片段的大小、数量;更重要的是了解这种转移的运行机制。这些发现将对基因组的人工调控和基因治疗新技术的开发产生重大现实意义。此外,这两类生物的基因组测序将有利于比较基因组研究、进化规则、发展生物学及分类学的发展。据悉,这次联合研究是华大基因“千种动植物参考基因组计划”的一部分。该计划将在未来两年内建立1000种动植物的参考基因组序列。在“共生体基因组计划”中,华大基因主要负责测序和生物信息分析工作。《科学时报》 (2010-3-23 A1 要闻)

  • 【简讯】“863计划”在主要动植物功能基因组研究方面进展顺利

    国家“863计划”现代农业技术领域在主要动植物功能基因组研究方面,利用“十五”建立的水稻功能基因组的技术平台,系统开展水稻产量、品质、抗病抗逆、营养高效性状的功能基因组研究,克隆验证新基因和调控因子,应用芯片技术建立水稻重要农艺性状的全基因组表达谱,并开展比较基因组学研究和第3、4染色体功能基因的系统鉴定。 利用水稻、拟南芥等模式植物功能基因组的技术平台,开展小麦、玉米、棉花、油菜、大豆、花生、番茄等作物的功能基因组研究,克隆验证重要农艺性状基因;建立家蚕和家鸡的功能基因组研究技术平台,分离克隆与家蚕丝蛋白质合成、性别决定、发育变态、分子免疫和对微生物抵抗性、鸡的生长、品质、抗性、繁殖等重要经济性状相关的重要功能基因和调控因子。

  • 【分享】Science:家蚕基因组测序成功

    据8月28日的《科学》杂志报道说,蚕虫驯养已经有1万多年历史了。蚕为人类提供了宝贵的丝绸和蛋白。但是,现在对蚕基因进行序列测试还为人们提供了一张有关这些随时会为我们提供如此多宝贵物质的昆虫的基因变异图。由西南大学、深圳华大基因带领的国际研究团队为29种家蚕和11种野蚕世系的基因组成功地进行了测序并找到了这些世系之间的差别。共获得了40个家蚕突变品系和中国野桑蚕的全基因组序列,共测632.5亿对碱基序列,覆盖了99.8%的基因组区域,是多细胞真核生物大规模重测序研究的首次报道;绘制完成了世界上第一张基因组水平上的蚕类单碱基遗传变异图谱,这是世界上首次报道的昆虫基因组变异图。科学家还发现了驯化对家蚕生物学影响的基因组印记,从全基因组水平上揭示了家蚕的起源进化。 研究发现,家蚕很明显地在基因上与其野生对应物不同,但即使在各家蚕世系之间,它们仍然维持着大量的变异性。这提示,家蚕只经历了一次牵涉有大量个体的单一且短暂的驯养过程,并在此后在家蚕与野蚕种群之间很少有基因流动。研究人员还能够识别出特别的能够增进丝的生产、蚕虫的繁殖和生长的基因(这些基因很可能是被人类挑选出的)。他们甚至还寻找到了在驯养过程中由蚕虫所获取的行为特征,例如极端的拥挤和容忍人的靠近和操作,以及它们在驯养过程中所丧失的如逃逸及躲避掠食者和疾病等的特征。(

  • 清华“基因组改造”入选《科学》年度十大科学突破

    美国《科学》杂志近日公布的2012年度十大科学突破中,“基因组改造”的技术革新榜上有名,这一项中引用了清华大学结构生物学中心的重要工作成果。位列今年十大之首的是希格斯玻色子的发现,此外,丹尼索瓦人基因组、让干细胞形成卵子、“好奇”号着陆系统、基因组的精密工程、大脑/机器界面等入选。 “基因组改造”的技术革新引用了清华大学结构生物学中心的重要工作成果。这已经是清华的科研成果在近三年内第二次上榜《科学》的年度十大。   对基因组特别是高等生物基因组的定点改造,一直是生物学研究的一个难题。相关技术近年不断取得突破,特别是以TALEN(转录激活因子样效应蛋白核酸酶)为代表的技术突破,使得基因组改造便捷有效。科学家利用TALEN成功实现了对于斑马鱼、爪蟾、家畜猪,甚至人类细胞的定向改造。清华大学结构生物学中心颜宁教授和施一公教授合作解析了TALE蛋白与DNA结合的高分辨率晶体结构,从而揭示了这些蛋白特异识别其靶标基因的分子基础。这一工作今年1月5日发表于《科学》杂志,12月21日入选该杂志的年度十大。2009年,颜宁教授研究组的研究成果也曾入选当年的十大。

  • 【分享】我国启动“兰花基因组计划”

    7月20日,我国科学家宣布“兰花基因组计划”正式启动。两岸科学家将联手对被喻为“植物界大熊猫”的兰科植物进行全基因组测序和生物信息分析,同时对10种最具代表性的兰科植物进行基因表达的转录组测序和分析。 国家兰科植物种质资源保护中心刘仲键教授介绍,对兰科植物的科学研究历史悠久,其成果为达尔文进化论提供了强有力的支持。兰花研究为进化生物学乃至整个生命科学的发展贡献巨大,至今仍是研究生命与进化的理想模式,占有特殊地位。同时,兰花也是世界性濒危物种,是国际公约保护物种的重中之重。兜兰与国宝大熊猫同列为一级保护,其余兰花全部被列入二级以上保护。 清华大学黄来强教授称,兰花全基因组及转录组测序分析,将为人类提供用现代生物学的新技术和理念从分子生物学的层面审视达尔文的研究,为进化生物学和进化论注入新鲜血液。在基因组和转录组的研究基础上进一步结合生物信息、分子生物、蛋白质组、代谢组、生化、生物物理等多学科和研究手段的融合,对加深其基因组结构及功能的了解,揭示兰科的进化,对生命科学研究具有普遍的重要意义。“兰花基因组计划”涉及的不仅是植物学,还将为世界上相关研究提供全新的起点和平台,是对全球基因组科学的又一重大贡献。 “兰花基因组计划”项目,由深圳兰科植物保护研究中心(国家兰科植物种质资源保护中心)、清华大学、深圳华大基因研究院、中国科学院植物所、台湾成功大学等单位科学家共同承担。

  • 药物基因组学的应用前景

    药物基因组学是上世纪九十年代末发展起来,基于药理学和基因组学,将传统的药物科学与基因、蛋白、单核苷酸多态性等知识结合起来的一门科学。正因为药物基因组学是研究基因序列变异及其对药物不同反应的科学,所以它是研究高效、特效药物的重要途径,通过它为患者或者特定人群寻找合适的药物,药物基因组学强调个体化;因人制宜,有重要的理论意义和广阔的应用前景。一、促进新药研发 由于药物基因组学规模大、手段强、系统性强,开辟了医药工业研究的新领域,可以直接加速新药的发现。首先药品制造商不仅把注意力放在可能引起疾病的基因上,而且对药物效应基因产生了兴趣,这些药物效应基因为新药研究提供依据。由于新一代遗传标记物的大规模发现,以及将其迅速应用于群体,流行病遗传学也可以大大推进多基因遗传病和常见病机理的基础研究。还可以帮助制药厂商在一些与基因和疾病相关的蛋白质、酶和RNA分子等基础上开发新药,这样不仅促进了药物的发现,还有利于开发出针对某一特定疾病的药物,从而增强疗效,并减少对健康细胞的损伤。对于每一个药物来说大约都有10-40%的人没有疗效,又百分之几的或更多的人有副作用。如果制药公司利用药物基因组学理论可以实现预见结果或筛选人群的话,可以大大增加新药的通过率,也可以对未通过药检的新药重新估价,这些药物中一个经常引用的例子是第一个非典型性抗精神活性药氯氮平(clozapine),在氯氮平的使用过程中,由于1%的病人服药后出现严重的粒细胞缺乏症,因而只有当其它药物使用后无效才使用。但是在粒细胞缺乏症的药物效应基因被确定后,极大地改善了氯氮平的使用,除极少数敏感的病人不能服用此药外,对于99%的病人来说,这一药物是一线治疗药物。在新药的临床试验研究中,如果事先知道人群可能对药物反应的话,如代谢酶的基因型,可以减少参试人群,试验的时间表也可以大大缩短。对药物有效或毒性变异的预测试验中,可用于筛选病人。经过药物效应基因突变筛选的受试者,可以加强临床试验的统计学意义,可以用更少的病例数达到所需的统计学意义,这样可以大大节约时间和费用。 二、用药个体化合理用药的核心是个体化用药。药物基因组学通过对患者的基因检测,如对一些疾病相关基因的单核苷酸多态性(SNP)检测,进而对特定药物具敏感性或抵抗性的患病人群的SNP差异检测,指导临床开出适合每个个体的“基因处方”,使患者既能获得最佳治疗效果,又能避免药物不良反应,真正达到“用药个体化”的目的。 医生在疾病的首次治疗过程中,往往需要临床实验来确定适合病人的药物,而药物基因组学则可以通过分析病人的遗传组成来确定最合理的治疗药物。这样就免去了先期用于药物选择的临床过程及由此带来的可能的副作用,并缩短了病热的康复期。更准确的用药剂量 通过基因组分析可以判断药物在体内的作用效果及代谢时间,并以此来确定不同个体的用药剂量,对比依据体重和年龄的方法,其具有更好的治疗效果,降低了过量服药的可能性。一些临床上经常出现的现象,例如两患者诊断相同、一般症状相同、血药浓度相同,但疗效却大相径庭,这些用传统的药代动力学原理是无法解释的。这时应考虑到与药物作用相关的位点(如受体等)是否发生了变异?是什么水平的变异?药物作用的位点的变异可能发生在基因水平,也可能发生在转录、翻译等水平,基因水平的变异相对比较容易鉴定,研究也表明基因的变异与药物效应的差异是更具相关性。研究基因突变与药效关系的药物基因组学正是适应了这一要求,因此药物基因组学在临床合理用药中的应用前景是非常之好的。将基因功能学用于合理用药,利用药物基因组学的技术和方法增加药物的有效性和安全性,减少不良反应,实现个体化、可预测及可预防的医疗,这就称之为临床药物基因组学。药物基因组学应用到合理用药中,弥补了只根据血药浓度进行个体化给药的不足,惟以前无法解释的药效学现象找到了答案,为临床个体化给药开辟了一个新的途径。这样药物基因组学原理为特定人群设计最为有效的药物,不仅提高了药效,缩短了病程,而且减少了毒副反应和成本,真正达到了“物美价廉”的要求。目前,已经有人将药物基因组学知识应用于高血压、哮喘、高血脂、内分泌、肿瘤等的药物治疗中。如原发性高血压是多因素诱发的疾病,对于许多患者,高血压药物的不同药效和耐受性与遗传变异有关。Ferrari发现,一种细胞骨骼蛋白(cytoskeletalprotein)、内收蛋白(adducin)的基因多态性与高血压的发病、对钠敏感性以及对利尿剂的效果相关。因此在抗高血压治疗需要用利尿剂时,可以对患者预先进行基因检测,以确定是否选择使用此药。通过对β2肾上腺素受体的基因多态性及其对β2肾上腺素受体激动剂的敏感性关系的研究,发现β2肾上腺素受体的基因多态性影响β2肾上腺素受体激动剂福莫特罗(formoterol)的脱敏效果,β2肾上腺素受体激动剂改善肺通气的作用对Gly纯合子个体明显比Arg纯合子个体要强,杂合子个体介于两者之间。 载脂蛋白E(APOE)的基因多态性,影响绝经后妇女用雌激素替代疗法(ERT)时的血脂和脂蛋白的浓度。人群中的APOE有3个等位基因:E2、E3、E4,ERT能使具有E2型基因的妇女血中总胆固醇含量大大高于E3、E4型。提示医生在绝经期妇女中使用ERT时,可事先检测患者的APOE基因,对具有E2型基因的妇女在治疗过程中密切监测甘油三酯浓度。如此,通过对不同个体的药物代谢相关酶、转运因子、药物作用靶点的基因多态性的研究,对突变的等位基因进行分离和克隆,在分子诊断水平上建立以聚合酶链反应(PCR)为基础的基因型分析方法,在治疗患者各种疾病前检测其基因型,更精确地选择适当的治疗药物和合适的剂量以减少不良反应的发生,对患者的治疗具有很大的意义。 随着基因分析技术的飞速发展,越来越多的药物效应的个体差异与基因多态性的关系被阐明,药物基因组学将更广泛地指导和优化临床用药。

  • ENCODE相关30篇论文摘要 聚焦人基因组功能研究

    DNA元件百科全书(Encyclopedia of DNA Elements, ENCODE)项目旨在描述人类基因组中所编码的全部功能性序列元件。它于2003年9月正式启动。来自英国、美国、西班牙、新加坡和日本的32个实验室中442名科学家参与这个项目。9年后的今天,他们在Nature(6篇)、Genome Research(18篇)和Genome Biology(6篇)期刊上发表了30篇论文。(特别专题:ENCODE-人类基因组详图问世)1. 转录因子的足迹分析对41种不同的细胞和组织类型进行基因组DNase I足迹分析(genomic DNase I footprinting),研究人员在DNA调节区内鉴定出4500万个转录因子结合事件,从而代表着这些转录因子与840万个不同的短DNA序列元件存在差异性地结合。他们还发现影响等位基因染色质状态的基因变异体集中分布在这些足迹之中,并且这些序列元件优先得到DNA甲基化的保护。他们鉴定出一个固定不变的50个碱基对长的足迹,并且这种足迹精确地确定着上千个人启动子内的转录起始位点。最后,他们描述了一个新的调节因子识别基序集合,其中这些基序在序列和功能上是高度保守的。参见原文(10.1038/nature11212)2. 人基因组DNA元件集成百科全书ENCODE项目系统性地描绘出人基因组上的转录区域、转录因子结合、染色质结构和组蛋白修饰。根据这些数据,研究人员将生化功能分配到80%的人基因组,特别是在已得到很好研究的蛋白编码序列之外的区域。参见原文(10.1038/nature11247)

  • 【讨论】于军:中国基因组学需加快自主研发和科普教育

    “10年前,我们参与人类基因组计划,完成了1%的工作,其实是‘搭了别人的车’。现在,面对即将到来的基因组学新时代,我们不能再搭别人的车了。”当年曾参与人类基因组计划承接1%测序工作、如今已是中科院北京基因组研究所副所长的[url=http://sourcedb.big.cas.cn/zw/zjrc/brjh/200907/t20090724_2194384.html][color=#800000]于军[/color][/url],对中国未来基因组学的发展和应用前途有点担心。2010年6月26日是人类基因组图谱公布10周年,国内外的一些研究机构都在这一天举行了纪念会。中国科协普及部、中科院北京基因组研究所、遗传与发育学研究所、中国遗传学会等单位也在北京举行了纪念会。会上,于军兴奋地回忆起当年他那个义无反顾的决定:1998年4月一天的早晨4点左右,他正在美国西雅图的家中睡觉。忽然自动传真机响了起来,“我爬起来一看,是邀请我回国工作的,我拿起笔签上自己的名字就传了回去”。这是于军回国工作的起点,也是中国参加人类基因组计划的起点。正是于军带回国内的技术和人才奠定了完成1%任务的基础。他是“1%计划”的“始作俑者”之一。与那时的热血沸腾相比,今天的于军更多了一份冷静与思考。“10年前,测定一个人的基因组,大约花了近10亿美元,用了13年的时间;而现在测一个人的基因组也就1万美元、一周左右的时间。美国现在已研制出第三代基因测序仪,用它测定一个人基因组的费用可降到1000甚至100美元,用时仅需15分钟。”于军说,当第三代基因测序仪广泛应用时,大规模应用基因组技术的“个体化基因组时代”就到来了。“个体化基因组时代”为人类描绘了一个美好的未来:那时,我们可以知道某一种药物为什么会对一部分人有治疗作用而对另一部分人不起作用,甚至起负作用;那时还会针对个体疾病的状态和遗传基础的独特性对症下药;也会针对个体化的药靶研制出个性化的治疗药物和治疗手段……这将是一个巨大的医疗市场。而测定每一个人的基因组本身也是一个大市场。“对于有十几亿人口的中国来说,假如使用美国研制的第三代基因测序仪来工作的话,那要进口多少台?按一个人测序需100美元计算,又要花费多少钱?”于军向记者言及此事,表现出了一种内心深处的忧虑。“中国一定要加快研制自己的DNA测序仪。”据了解,于军团队正与有关单位合作研制第二代和第三代测序仪器。“但我们的力量仍然有限,应该有更多的团队和单位加入到这个行列中来。这是我们迎接基因组学新时代的必要准备。”还有一种必要的准备,那就是做好有关基因、遗传学、基因组学等相关科学的科普宣传工作。“美国人十分重视基因组学的科普宣传。”于军回忆说,当年,美国立项测定人类基因组图谱时,就把这项工作的科普宣传列入了计划。10年前图谱完成时,时任美国总统克林顿发表致辞,电台、电视台现场直播,上万名美国人参加了当时各种各样的庆祝活动。“关于科普的作用,一个明显的例子是对待转基因食品的态度。”于军说,美国人就不像中国人那样对转基因食品“过分惶恐”。因为他们知道转基因食品并不像有人说的那样可怕和有危害。中国在面对转基因食品的问题上,好像是由大众的好恶来决定,而不是由对转基因的科学认识来决定。未来的基因组学时代、个性化基因组时代,我们可能会遇到比转基因食品更棘手的问题:法律问题、伦理道德问题、个人隐私问题等等。“从现在起我们就应该做好基因组新时代的科普宣传,未雨绸缪,为基因组学的发展和应用提供更加广阔的发展空间。”于军如是说。(转自科技日报)

  • 【分享】全球首个中药基因框架图“丹参基因组框架图”绘成

    [font=宋体][size=3]中国医学科学院药用植物研究所与广药集团今天在京宣布“丹参基因组框架图”绘制完成。这是世界上首个药用植物基因组框架图。[/size][/font][font=宋体][size=3]  广州白云山和记黄埔中药有限公司与中国医学科学院药用植物研究所合作,利用第二代高通量测序技术对丹参全基因组进行测序,并完成丹参基因组框架图的组装。丹参基因组框架图的完成,对其它药用植物的研究具有很好的借鉴和示范作用,促进现代前沿生命科学研究和传统中药学的有机结合,将改变中药研究领域被动追赶其它学科发展的局面。[/size][/font]

  • 【分享】美科学家首次测序癌症患者基因组

    科学家首次测序癌症患者基因组美国科学家近日首次成功测序了一个癌症患者的基因组,这一开创性工作为利用新方法揭开癌症的遗传学基础创造了条件。相关论文发表在11月6日的《自然》(Nature)杂志上。测序的基因组来自于一位女性,50多岁死于急性骨髓性白血病(AML)。美国华盛顿大学的研究人员利用来自皮肤样本的遗传材料,测序了她2套染色体的DNA,同时根据骨髓样本检测了其肿瘤细胞中的遗传突变。所有样本均采自患者接受癌症治疗前,以防DNA受到进一步损伤。随后,研究人员将患者的肿瘤基因组与其正常基因组进行了比较,以期发现遗传差异。在患者肿瘤基因组中接近270万个单核苷变异中,将近98%同样也在患者皮肤样本的DNA中检测到,这就大大缩小了进一步筛选的范围。研究人员最终在患者的肿瘤DNA中仅发现了10个可能与AML有关的遗传突变,其中8个很罕见,它们所处基因之前从未被认为与AML有关。研究人员还显示,肿瘤样本中的每个细胞拥有9个突变,而且较少发生的那个突变可能是最后形成的。研究人员怀疑,所有这些突变对于患者的癌症都很重要。美国国立人类基因组研究所前任主管Francis Collins说:“首次确定人类癌症基因组的完全DNA序列,并与同一个体的正常组织相比较,这在癌症研究中是一个真正的里程碑。”美国俄勒冈健康与科学大学癌症研究所的Brian Druker说:“虽然这一研究尚不能告诉我们怎样治疗癌症患者,但它是这条路上关键的第一步。它为大规模癌症基因组测序和揭示癌症秘密打下了基础。”目前,研究小组正在测序其他AML患者的基因组,同时他们还计划将这种全基因组方法扩展到乳腺癌和肺癌。

  • 【转帖】基因组所有关高原低氧适应遗传研究论文在PNAS发表

    [size=3]近日,中国科学院北京基因组研究所曾长青研究组,通过与英国、爱尔兰和美国的研究人员研究合作,发现了藏族人群能够适应高海拔地区低氧环境,并且免于罹患高原疾病的一个重要遗传机制——EPAS1基因的多态性。其相关研究成果已于6月7日在美国《国家科学院院刊》(PNAS)网络版发表。该项目的策划人之一,文章的通讯作者——中国科学院北京基因组研究所曾长青研究员(代表中国参加国际HapMap计划的主要负责人)表示,HapMap绘制的人群多态性图谱是目前研究人类遗传多态性的最主要数据,占其样品总量六分之一的汉族样品数据是研究中华民族遗传多态性的基础。此次新发现的藏族人群特有的EPAS1基因多态,不但是不同人群高原适应机制遗传研究领域的重要进展,同时也为科研人员进一步研发低海拔人群对于高原低氧敏感性的检测手段提供了基础。 [/size]

  • 【转帖】古老病毒通过入侵重塑人类基因组

    古老病毒通过入侵重塑人类基因组译者:Docofsoul《每日科学》2010年9月13日报道 —— 新加坡基因组研究院(GIS, 隶属于新加坡科技研究局(A*STAR)的生物医学研究院)的科学家以及来自新加坡国立大学、新加坡南洋理工大学、杜克-新加坡大学医学研究院与普林斯顿大学的同事们最近发现:数百万年前“入侵”人类基因组的病毒已经改变了人类胚胎干细胞(ES细胞)中的基因开启与关闭方式。科学家已经发现数百万年前“入侵”人类基因组的病毒已经改变了人类胚胎干细胞(ES细胞)中的基因开启与关闭方式。(照片来源:iStockphoto/Martin McCarthy)这一研究为生理学与医学诺贝尔奖获得者芭芭拉•麦克林托克(Barbara McClintock)于上世纪五十年代提出的理论提供了明确的证据。芭芭拉•麦克林托克的理论推测:转座因子,即可移动的遗传物质(DNA)片段(比如说病毒序列),一旦插入基因组,就能成为影响基因调节的“控制因子”。本发现对于推进干细胞研究进程、增强干细胞研究为再生医学效劳的潜力都算得上是重要贡献。 由新加坡基因组研究院精英小组负责人吉拉姆•布尔克(Guillaume Bourque)博士率队领导了本研究。本研究的论文发表于2010年6月6日的《Nature Genetics》(《自然•遗传学》)。通过运用新的测序技术,科学家们研究了人类与小鼠胚胎干细胞(ES细胞)中三种调节蛋白质(OCT4、NANOG 与 CTCF) 的染色体组定位(基因组定位)。令人感兴趣的是,在科学家发现大量的相似点的同时,他们也发现了在人类中受到调控的基因方式与基因类型的许多不同点。尤其是,他们发现:数百万年前自行插入人类基因组的特定类型病毒已经戏剧性地改变了人类干细胞基因调控网络。德克萨斯州大学阿灵顿分校副教授Cedric Feschotte 博士说:“本研究是计算与实验双管齐下的代表作,提供了无可置疑的全新的证据:一些经常被斥责为纯粹垃圾DNA的转座因子,恰恰正是人类发育调控密码的关键成分。”在基因调控网络的研究中,人类模型系统与小鼠模型系统之间的比较研究有助于增进对干细胞分化成体内不同细胞类型的具体过程的理解。布尔克博士说:“这种理解在促使再生医学的百尺竿头更进一步地发展 —— 从而解决诸如帕金森病与白血病等问题方面是至关重要的。除了在本研究中利用基因调控网络中的小鼠胚胎干细胞的优势外, 深入研究必须更加直接地集中于人类干细胞。这是因为将某一种类上完成的研究成果转向对另一种类的研究上时必然会遇上的挑战。为了让干细胞方面的发现能够用于临床实践,在人类与(非人类的)灵长类干细胞两个方面还有更多的研究工作需要完成。” 加利福尼亚州立大学神经学Rudi Schmid 特聘教授、哲学博士雷蒙德•怀特(Raymond L. White)教授说:“本论文报告了令人非常激动的新发现,证实了一个全新的、迥然不同的基因表达的调控机制。通过将小鼠的基因组与人类基因组的直接比较,科学家能够显示:在两种种类之间,基因调控因子的结合点经常不在同一位置。这本身就足够令人惊讶的了,但是研究者作了进一步的探索,证实许多位点都嵌合在称之为‘转位’因子的一类DNA序列中,这是因为他们具有在基因组中移动到新的位置的能力。存在很多这样的相信是病毒基因组进化残余部分的因子,但我们所了解到的(信息中)还有着非常出人意外的情形:它们到达新的(基因组)位置时,还携带着调控因子结合位点。这些在调控方面的变化估计可能在携带它们的有机体上产生重大变化。确实,许多学者相信调控方面的变化处于物种形成的核心,可能在人从其祖先的进化历程中扮演了一个重要角色。本论文可能成为这一研究领域的里程碑式的论文。”美国能源部联合基因组研究所所长、劳伦期•伯克利国家实验室伯克利实验分室基因组学部主任埃迪•拉宾(Eddy Rubin)博士补充说:“这个运用了比较基因组学策略的研究在人类胚胎干细胞(ES细胞)中发现了重要的人类特异性属性。该论文所提供的信息意义重大,应该有助于推进再生医学领域的发展,相信会有不俗的积极表现。”参考文献:Galih Kunarso, Na-Yu Chia, Justin Jeyakani, Catalina Hwang, Xinyi Lu, Yun-Shen Chan, Huck-Hui Ng, Guillaume Bourque. Transposable elements have rewired the core regulatory network of human embryonic stem cells.Nature Genetics, 2010; 42 (7): 631 DOI: 10.1038/ng.600(《转位因子重新连接人类胚胎干细胞的核心调控网络》)

  • 人类基因组单核苷酸多态性的研究进展与动态 【转贴】

    人类基因组单核苷酸多态性的研究进展与动态The research development of single nucleotide polymorphisms in human genome 摘要:第一张人类基因组序列草图已经公布,正式图预计也将于2003年4月完成。但序列图只基于少数个体,它反映了基因组稳定的一面,并未反映其变异或多态的一面,而正是这种多态性,即基因组序列的差异构成了不同个体与群体对疾病的易感性、对药物与环境因子不同反应的遗传学基础。人类基因组中存在广泛的多态性,最简单的多态形式是发生在基因组中的单个核苷酸的替代,即单核苷酸多态性(single nucleotide polymorphisms, SNPs)。SNP通常是一种二等位基因的(biallelic),即二态的遗传变异,在CG序列上出现最为频繁。在转录序列上的SNP称为cSNP。SNP的数量大、分布广。按照1%的频率估计,在人类基因组中每100~300个核苷酸就有一个SNP。因此,整个人类基因组(3.2 X 109bp)中至少有1,100万以上的SNPs,在任何已知或未知基因内和附近都可能找到数量不等的SNP 目前普遍认为,作为数量最多且易于批量检测的多态标记,SNP在连锁分析与基因定位,包括复杂疾病的基因定位、关联分析、个体和群体对环境致病因子与药物的易感性研究中将发挥愈来愈重要的作用。迄今,对多基因疾病候选基因的SNPs研究已积累了丰富的数据,基于这些SNPs的关联分析也正方兴未艾。本文阐述了SNP的特征、不同研究者对基于SNP进行关联分析的观点以及SNP的研究进展与动态。 关键词: SNP;遗传标记;关联研究 中图分类号:Q75 随着分子遗传学的进展,疾病遗传学研究从简单的单基因疾病转向于复杂的多基因疾病(如骨质疏松症、糖尿病、心血管疾病、精神性紊乱、各种肿瘤等)与药物基因组学的研究中。与前者相比,多基因性状或遗传病的形成,受许多对微效加性基因作用,即其中每种基因的作用相对较微弱。这些不同基因构成的遗传背景中,可能有易感性主基因(major gene)起着重要作用。它们同时还受环境因素的制约,彼此间相互作用错综复杂,所以任一基因的多态性对疾病发生仅起微弱的作用。鉴于此,需要在人类基因组中找到一种数目多、分布广泛且相对稳定的遗传标记,单核苷酸多态性(single nucleotide polymorphisms, SNPs)正是代表了这样一种标记,所以它成为继第一代限制性片段长度的多态性标记、第二代微卫星即简单的串联重复标记后,第三代基因遗传标记。 1. SNP作为遗传标记的优势 SNP自身的特性决定了它比其它两类多态标记更适合于对复杂性状与疾病的遗传解剖以及基于群体的基因识别等方面的研究。 (1)SNP数量多,分布广泛。据估计,人类基因组中每1000个核苷酸就有一个SNP,人类30亿碱基中共有300万以上的SNPs。SNP 遍布于整个人类基因组中,根据SNP在基因中的位置,可分为基因编码区SNPs(Coding-region SNPs,cSNPs)、基因周边SNPs(Perigenic SNPs,pSNPs)以及基因间SNPs(Intergenic SNPs,iSNPs)等三类。 (2)SNP适于快速、规模化筛查。组成DNA的碱基虽然有4种,但SNP一般只有两种碱基组成,所以它是一种二态的标记,即二等位基因(biallelic)。 由于SNP的二态性,非此即彼,在基因组筛选中SNPs往往只需+/-的分析,而不用分析片段的长度,这就利于发展自动化技术筛选或检测SNPs。主要的技术方法包括单链构象多态性(single strand conformation polymorphisms, SSCPs)法、异源双链分析(heteroduplex analysis, HA)、DNA直接测序分析、变异检测阵列(variant detector arrays, VDA)法以及基质辅助激光解吸附电离飞行时间(MALDI-TOF)质谱法等。 (3)SNP等位基因频率的容易估计。采用混和样本估算等位基因的频率是种高效快速的策略。该策略的原理是:首先选择参考样本制作标准曲线,然后将待测的混和样本与标准曲线进行比较,根据所得信号的比例确定混和样本中各种等位基因的频率。 (4)易于基因分型。SNPs 的二态性,也有利于对其进行基因分型。对SNP进行基因分型包括三方面的内容:(1)鉴别基因型所采用的化学反应,常用的技术手段包括:DNA分子杂交、引物延伸、等位基因特异的寡核苷酸连接反应、侧翼探针切割反应以及基于这些方法的变通技术;(2)完成这些化学反应所采用的模式,包括液相反应、固相支持物上进行的反应以及二者皆有的反应。(3)化学反应结束后,需要应用生物技术系统检测反应结果。目前许多生物技术公司发展出高通量检测SNP的技术系统,如荧光微阵列系统(Affymetrix)、荧光磁珠技术(Luminex,Illumina, Q-dot)、自动酶联免疫(ELISA)试验(Orchid Biocomputer)、焦磷酸的荧光检测(Pyrosequencing)、荧光共振能量转移(FRET)(Third Wave Technologies)以及质谱检测技术(Rapigene, Sequenom)。 2. 基于SNP的关联研究 如果某一因素可增加某种疾病的发生风险,即与正常对照人群相比,该因素在疾病人群中的频率较高,此时就认为该因素与疾病相关联。如非遗传因素吸烟与肺癌相关;在遗传因素中,如APOE4与Alzheimer`s相关。对疾病进行关联分析需要在年龄与种族相匹配的患者和对照人群中确定待测因素(环境的或遗传的)的频率分布,患者和对照人群的选择是否恰当直接影响结果的可靠性。对常见的由高频率、低风险等位基因导致的疾病,采用致病等位基因的关联分析比连锁分析更有效。 应用SNP进行关联研究,首先需明确多少SNPs才可满足在全基因组范围内的分析。Kruglyak应用计算机模拟法预测人类基因组中超过3Kb就不存在连锁不平衡,据此推出完成全基因组扫描将需要500,000个SNPs。而Collins等收集通过家系研究得到的常染色体单倍型的信息发现,在染色体上相距0.2cM到0.4cM(约200-400kb)之间的标记仍存在连锁不平衡,如按每100kb需要一个SNP计算,那么完成全基因组扫描仅需约30,000个SNPs,平均每3-4个基因用一个SNP就可识别出整个基因组内任何位置上的具表型活性的变异。最近发现SNP与SNP之间的连锁不平衡甚至可延伸到更远的区域(0.35cM-0.45cM),那么进行基因组扫描需要的SNP数量就更少。导致上述估算SNP 数量差异的主要原因是Kruglyak进行模拟计算时,假设现在的人群在5000年前起源于共同的祖先,且人群规模的有效大小保持在10,000左右,然后经过连续的指数扩增,直至达到现在的50亿左右。Collins认为这种假设是不现实的,在人类发展的历史过程中,人群数目的增长是迂回曲折的,经历扩张与萎缩的周期性变化。 Weiss等认为Collins及其同事的结果可能低估了问题的复杂性。因为他们的结果或是基于小样本资料推断出来的,就会使连锁不平衡(LD)程度的估算偏高;或是从理论上预测LD的水平,而忽略了基因组中大量的随机变异。如大多数位点的信息是来源于小样本中测序得到的资料,据此得到的单倍型结构不可靠。目前的研究集中于基因组中LD相对广泛存在的区域,在此区域内,基因相对容易作图。如基于这些经验来进行基因组其它区域的LD分析,就可能发生偏离。如两个相距较远的SNPs 之间具有强的LD性质,就认为它们之间的SNPs及该SNP侧翼的SNPs也存在强烈的LD,这种假设仅适合于其中一些多态位点,但它并不是通则。当然,在一些罕见人群中,如Saami,在较长的区域内广泛存在大量的LD,但对Fihland人群,则在较长区域内几乎不存在LD,对全球整个复杂人群而言,LD肯定变得更复杂一些。 Gray等认为随着人类基因组测序计划的进展,人类基因组的结构逐渐被阐明,因此就可在那些富含基因的区域选择SNP进行全基因组扫描,这样所需的SNP数量还会减少。Halushka等根据他们对75个基因检测的实验结果推测,SNPs在单个基因或整个基因组中的分布是不均匀的,在非转录序列中要多于转录序列,而且在转录区也是非同义突变的频率比其它方式突变的频率低得多。Templeton 等对LPL基因突变与重组热点的研究结果提示,SNP集中分布于基因组的CG二核苷酸处或单核苷酸重复区或αDNA聚合酶的识别位点(TGGA)处。将人类基因组不同区域物理图谱与遗传图谱的进行比较,发现遗传距离和物理距离的比值有很大的差异,提示基因组不同区域的重组水平存在差异。如Dunham等将22号染色体STR的物理位置与遗传位置进行了对比,发现该染色体的重组率差异很大,提示存在重组热点。根据基因组内不同区域重组频率的高低可进一步选择SNP的数量,重组热点需要的标记数量就多,相反就少。这种设计也可能会进一步减少基因组扫描所需的SNP标记。 使用SNP进行关联分析面临的另一个问题是如何选择SNP。如果对每一个SNP都进行独立研究,那么对几百万SNPs 的研究就会导致成千上万次的假关联,结果就掩盖真实的关联性,所以,进行关联分析前,一定要对所研究的SNP进行选

Instrument.com.cn Copyright©1999- 2023 ,All Rights Reserved版权所有,未经书面授权,页面内容不得以任何形式进行复制