2020年11月12日,中国科学院昆明动物研究所研究员张国捷及其团队,联合深圳华大生命科学研究院、丹麦哥本哈根大学等多家单位在《Nature》上以封面形式同期发表了两篇文章报道了万种鸟类基因组计划第二阶段(科级别)的研究结果。研究团队发表了363种鸟类基因组数据,同时通过这一数据建立了无参考序列下多基因组比对和分析的新方法,并基于这一新方法阐明高密度物种取样对生物多样性研究的重要性。
万种鸟基因组学计划旨在构建所有现生约10500种鸟类的基因组图谱,该项目由深圳国家基因库、中国科学院、哥本哈根大学、史密森博物馆、深圳华大生命科学研究院以及洛克菲勒大学共同主导。目前发表的研究工作是该计划第二阶段科级别的最新研究成果。科研团队从现存鸟类的科阶元中选取一个代表性鸟类物种,共计获得363只鸟类的全基因组数据覆盖92%的科阶元,其中267个物种的基因组数据为首次发布。项目所使用的样品主要来源于全球多个博物馆所保存的鸟类组织样品。其中美国史密森博物馆、丹麦自然博物馆和路易斯安那州立大学自然博物馆为该项目贡献了大部分样品。这使得研究团队能够对一些稀有的和濒危的鸟类物种进行基因组测序,这将会物种保育提供重要的基因组资源。
区别于传统的比较基因组学分析依赖于某个基因组作为参考序列建立全基因组比对,研究团队建立了全新的无参考序列下多基因组比对和分析方法,实现了获取更真实且全面的序列同源关系用于后续系统发生关系的解析和比较基因组学相关分析。该方法极大的提高了跨物种的比对效率,减少了由于与参考物种遗传距离差异引起的比对偏好何序列丢失。例如,363只鸟类基因组构建的全基因组比对序列总长为981Mb,比之前以鸡和斑胸草雀为参考基因组构建的48只鸟类全基因组比对序列在长度上提升了149%。
无参的全基因组比对数据集为全面解析鸟类遗传多样性特征的演化历程和分子遗传机制提供了全新的切入点。在另外一篇文章中,研究团队借助这一算法的优势建立了更加完善的同源基因集合,还开发了一套鉴定任意演化分支特异获得和丢失序列的方法,从而完整描绘出鸟类物种谱系基因组动态演化图谱。研究发现这些动态变化的基因组区域往往存在一些分支特异基因或调控元件,可能与物种特异性状的起源和演化有关。比如,雀形目鸟类基因组多出一个生长激素基因的拷贝。雀形目中的鸣禽丢失了Cornulin基因,该基因所编码的蛋白主要位于食管和口腔上皮细胞,其缺失可能会引起食管上皮的粘弹性特性发生变化,进而使得食管上部直径可以产生快速变化来调整的声道,这可能与其多样化的纯音发声演化有关。
此外,研究发现基于高覆盖度的物种取样的基因组比较分析显著提高了对基因组序列保守性的检验效力,实现了在单碱基分辨度下的自然选择压力分析。相比于53个物种的比较分析,363个物种计算得到的单碱基保守位点从2.1%上升到13.2%。“在少量物种的比较分析中,我们只能通过严格筛选演化速率近乎为0的基因组区域作为超保守区域,因此只能检测出受到强烈自然选择的基因组区域。而高覆盖度的物种比较分析可以极大提高对基因组选择压力的检测灵敏度,以鸟类现有数据来看,我们可以在低于中性演化水平50%左右的演化速率下即可检测出受到自然选择的区域。”B10K项目发起人之一、深圳国家基因库副主任、哥本哈根大学终身教授张国捷强调说,“这些区域可能在演化过程中由于在某些物种分支上提供特殊适应性功能,从而受到较弱的自然选择压力。因此这些区域对揭示物种类群的分化具有重要意义。”
该研究得到中国科学院B类战略性先导科技专项“大尺度区域生物多样性格局与生命策略”(XDB31000000),国际大科学计划培育专项(No. 152453KYSB20170002)的支持。
高密度物种取样,覆盖鸟类92%的科阶元