最近,中国科学家独立完成了第一个人类“端粒到端粒”二倍体完整参考基因组“CN1”,相关工作以封面论文的形式发表在细胞研究中(CellResearch),为准确的医学研究和应用提供重要的参考数据支持。
构建人类基因组的道路
DNA包含遗传信息,为了破译人类遗传信息,通过基因组学研究实现改善人类健康的目标,美国科学家率先提出了“人类基因组计划”——测量人类染色体(单倍体)包含30亿碱基对核苷酸序列,绘制人类基因组图谱,识别基因及其序列。美国、英国、法国、德国、日本和中国科学家共同参与了这一计划,中国承担了其中1%的任务。6国科学家于2000年6月26日宣布,人类基因组草图的绘制工作已经完成。
人类基因组草图公布后,随着技术的进步,这个参考序列不断升级版本。到目前为止,GRCh38.P14是它的最新版本,大量的疾病研究作为参考。在人类基因组计划之后,人类基因组的研究面临两个主要任务,一个是如何建立一个完整的个人基因组;另一个是使精确的医疗保健真正有利于每个人。
“端粒到端粒”2022年(T2T)基于细胞系,国际研究联盟建立了第一个完整的人类参考基因组T2T-CHM13,从头到尾填补了大约2亿碱基对的最终缺失。
“端粒位于人类染色体的两端,从端粒到端粒的无间隙测序意味着每个染色体都有完整的遗传信息。浙江大学生命进化中心主任、医学院教授张国杰说。“然而,T2T-CHM13基因组在来源上不属于生物学上的正常个体,也没有父母遗传获得的两套不同的基因组。这项工作离真正建立二倍体人类完整基因组的目标还有一步之遥。”
二倍体基因组道阻长
据报道,由于染色体DNA很长,DNA只能在测序每个小片段之前进行片段化,然后数据需要通过算法拼接和纠正,并组装成染色体DNA。人体细胞中有46种染色体,即22对常染色体和1对性染色体(XX或XY)。由于每对常染色体之间的序列相似性很高,仅限于算法,通常只能组装一个“嵌合”染色体数据,最终得到由22个常染色体和两个性染色体(X染色体和Y染色体)组成的单倍体基因组。
此外,与单倍体相比,双倍体基因组有两个非常相似的基因副本,这些基因副本很容易受到测序错误的影响而断开或组装错误;其次,染色体上的复杂区域,如丝粒和核糖体DNA所含的大量重复序列,将更难拆分同源染色体。高质量二倍体基因组HG002仍有几十个未填充的缺口,主要集中在丝粒区和Y染色体上。
第一个完整的人类二倍体基因组
浙江大学张国杰教授团队与深圳农业基因组研究所阮觉团队和华大生命科学研究所合作,共同解决双体完整基因组装解决方案。两个研究小组在二倍体基因组和复杂基因组组装方面积累了丰富的经验。通过开发算法,以个人父母数据为参考系,可以完美区分不同染色体上的数据,分别组装人体46个染色体的数据。然后,由于数据过于复杂,手动填补了69个缺口。最后,获得了健康个体完整的二倍体基因组。
研究表明,与现有的参考序列相比,利用这个完整的基因组作为东亚人遗传学研究的参考序列,可以提高东亚人的序列比较,降低错误率,检测单碱基多态性的准确性也会更高。完整地图的绘制为中国的精确医学研究提供了更准确的参考基因组。