据西班牙《阿贝赛报》网站8月23日报道,一个由100多名研究人员组成的国际团队首次获得了人类Y染色体的完整序列。Y染色体是我们的两条性染色体之一,与男性发育相关,但迄今为止Y染色体序列只有不到一半可以被“读取”。这一新成果填补了迄今为止该染色体超过50%长度上存在的众多“空白”,从而使其成为最后一条被科学界完成测序的人类染色体。
首次完全破译
具体来说,研究人员展示了人类Y染色体的62460029个碱基对的完整序列。该序列组装纠正了目前人类参考基因组组装版本中Y染色体的多个错误。它还向该参考基因组组装版本添加了超过3000万个碱基对,揭示了多个基因家族的完整结构,并确认了41个新的蛋白质编码基因。这些结果还纠正了一些微生物组研究中做出的假设,在这些假设中,以前未知的人类Y染色体序列被错误地解释为生活在人体内的细菌的基因序列。
该研究的合著者、美国约翰斯·霍普金斯大学的专家迪伦·泰勒表示:“现在我们有了完整的Y染色体序列,将能够识别和探索可能影响人类特征和疾病的大量基因变异,这是我们以前无法做到的。”
这项研究由名为“端粒到端粒”联盟的科学家团队完成。研究成果公布在23日发表于英国《自然》周刊的两篇文章中。
攻克技术难关
人类有成千上万个基因,这些基因共同构成了我们的“说明书”。基因是有遗传效应的DNA片段。长长的DNA分子、即染色体,存在于我们细胞的细胞核内。基因中的信息是由染色体上的四个小“化学字母”(A、C、G和T)组合而成。这些“字母”被称为碱基,它们的多种组合构成了我们的全部遗传信息。
X染色体和Y染色体在女性和男性的性发育中发挥着重要作用,尽管人们多年前就已知道这一点,人类性发育所涉及的因素分散在整个基因组中,而且非常复杂。
20年前,当人类基因组的第一个测序完成时,科学家们还无法完全“读取”它,几乎所有23条染色体都留下了“空白”。这些空白大多很小。几乎所有这些空白都被“端粒到端粒”联盟的研究人员在去年发表的里程碑式声明中填补了,当时他们补上了人类基因组序列一直未被解码的那8%,这些基因在20年前由于缺乏必要的技术而无法完成测序。
但Y染色体一半以上的序列仍然是个谜。这极大地限制了对该染色体实际作用的研究。当科学家和医生研究一个人的基因组时,他们会将其DNA与参考基因组进行比较,以确定哪里存在变异。但就Y染色体而言,这些巨大缺口的存在使得人们至今仍难以了解其变异和相关疾病。
所有染色体都有一些重复区域,但Y染色体的重复情况不同寻常,因此其测序特别难以完成。收集测序数据有点像阅读一本被切成条状的书。如果书中的所有句子都是唯一的,那么确定它们的顺序就会比较容易。但如果同一个句子重复了数千次(甚至数百万次),那么原来的顺序就不会那么清楚了。虽然所有人类染色体都含有重复序列,但Y染色体上大约有3000万个“字母”是重复序列。这就好像书中有一半以上的篇幅都在重复相同的语句。
为了解决这个问题,“端粒到端粒”联盟应用了一系列新的DNA测序技术和序列组装方法,以及从生成人类其他22条染色体的首个无间隙序列(一年前发表)中获得的知识。
医学意义重大
“最令人惊讶的是,重复部分的组织程度相当高,”该联盟领导人之一亚当·菲利皮说道,“我们之前不知道缺失的序列到底是由什么组成的。它本来可能是非常混乱的,但与之相反,几乎有一半的染色体是由两个被称为‘卫星DNA’的特定重复序列块交替组成的。它们构成了一种美丽的图案。”
Y染色体的完整序列揭示了具有重要医学意义的区域的重要特征。例如,其中一个被称为“无精症因子区域”的部分包含一些已知与精子产生有关的基因。得益于新完成的测序,研究人员能够研究“无精症因子区域”中一组反向重复序列的结构。
《自然》周刊发表的其中一篇论文的第一作者阿朗·里耶博士说:“这种结构非常重要,因为这些‘回文’结构有时会形成DNA环。有时,这些环会被意外切割,从而在基因组中产生缺失。这可能会改变精子的生成并影响生育能力。”(编译/王萌 田策)