恒河猴(Macaca mulatta)是生物科学研究和新药研发广泛应用的非人灵长类实验动物。构建一个高质量的恒河猴基因组是开展相关研究的重要基础。当前国际上广泛使用的是印度恒河猴的参考基因组,但这个主要基于二代测序的恒河猴参考基因组组装质量较差,序列碎片化和缺失严重,极大地限制了它的应用,特别是无法用于对基因组结构变异(Structural Variant,SV)的解析。
宿兵课题组运用三代长读长测序技术(PacBio),并结合多种基因组辅助组装技术(Bionano光学图谱技术、Hi-C互作图谱技术、以及Iso-Seq测序技术)组装了一个高质量的中国恒河猴参考基因组——rheMacS。相比于目前的印度恒河猴参考基因组,rheMacS的基因组质量提高了75倍,并填补了2万多个之前参考基因组存在的缺口(gaps)。另外,研究人员共采集了10种中国恒河猴的组织进行Iso-Seq和RNA-Seq测序,产生了超过2百万条全长转录本数据和185Gbp的短读长转录组数据,为中国恒河猴参考基因组的功能注释提供了关键数据。
利用构建的高质量中国恒河猴基因组,研究人员在恒河猴中发现了5万多个新的SVs;尤为重要的是,他们通过与已发表的高质量猿类基因组进行深度比较分析,首次发现了17,000个猿类特有的结构变异(ASSVs)。进一步的研究表明,大量的ASSVs发生在猿类与恒河猴存在活性差异的增强子区域。通过对这些ASSVs进行功能注释,研究人员找到了一系列与猿类重要表型特征相关的ASSVs,如尾巴丢失、大脑容量增加以及体型变大等。该研究发布的中国恒河猴基因组将对未来的生物医学研究提供重要的基础数据,并为解析包括人类在内的灵长类表型进化的遗传基础提供新的思路。
该研究以Long-read assembly of the Chinese rhesus macaque genome and identification of ape-specific structural variants为题,于2019年9月17日在Nature Communications发表。网站链接https://www.nature.com/articles/s41467-019-12174-w。中国科学院昆明动物所和耀喜副研究员为论文的第一作者,博士研究生罗鑫、周斌,硕士研究生胡庭和博士研究生孟晓宇为该文的共同第一作者。宿兵研究员为该文的通讯作者。该研究得到华盛顿大学Evan Eichler教授、Peter Audano博士和Zev Kronenberg博士在数据分析方面的帮助。该研究受到中科院战略先导专项、国家自然科学基金委重点项目、国家自然科学基金委创新群体项目的资助。