树鼩是一种与实验大鼠差不多大小的小型哺乳动物,是灵长类动物的近亲,在生物医学研究中颇具潜力。树鼩繁殖周期短(~6周),每胎产仔数2-5只,饲养成本低,作为在某些方面替代非人灵长类的实验动物,具有独特的优势。为了解决树鼩用于疾病动物模型创建时缺少基因组学等遗传信息的问题,2013年,昆明动物所姚永刚课题组牵头组织中科院动物模型与人类疾病机理重点实验室相关研究团队,联合华大基因,发表了利用二代测序技术测定的中缅树鼩的全基因组(KIZ version 1: TS_1.0),较为全面地获取了树鼩的遗传特性,证实树鼩与灵长类动物的亲缘关系最近(Fan et al. 2013 Nat Commun)。基于此版树鼩基因组数据,姚永刚课题组建立了首个树鼩基因组数据库(TreeshrewDB v1.0),实现了树鼩基因组数据的自由访问和共享,促进了树鼩研究领域的发展。由于二代测序读长过短等技术局限,第一版树鼩基因组中存在一些问题,如拼装的基因组中缺口(Gaps)多达223607个,其中位于基因编码区的缺口有2091个。这些问题阻碍了人们进一步深入分析与挖掘树鼩基因组信息。
近期,来自姚永刚课题组的博士范宇利用单分子实时(Single molecular real-time, SMRT)测序技术,结合高通量染色质构象捕获技术(Hi-C技术: high throughput chromosome conformation capture)测序数据,完成了新版的树鼩基因组(KIZ version 2: TS_2.0)高精度测序、组装和注释,最终获得的树鼩基因组大小是2.67Gb。其中,contig N50为3.2 Mb,长度比第一版树鼩基因组(TS_1.0)提高了146倍。对contigs进行聚类与定序后,总共有1728个contigs(~ 2.56Gb,占基因组大小的96.2%)可锚定在31条假染色体(pseudo-chromosome)上,最终得到的Scaffold N50为104Mb,实现了树鼩基因组染色体水平组装。新版树鼩基因组填补了第一版基因组中约73%的拼装缺口(163,220个),其中处于基因编码区的缺口全部得到填补。利用从头(de novo)预测、同源(homolog)预测和转录组数据预测等方法,对新版基因组进行注释共得到23568个基因,其中约88.3%(20811个)的基因添加与更新了功能注释信息。第二版树鼩基因组(KIZ version 2: TS_2.0)中,蛋白编码基因的数量与序列长度较第一版基因组有明显的质量提升,基因结构的精确度也明显上升。基于第二版基因组信息,范宇等人完成了基因组重复序列(Repeat content)的分析,发现120多个长转座子和400多万个包含短重复序列(长度小于150bp)和长重复序列(长度大于5kb)的卫星区域。对LINE1(L1 long interspersed nuclear elements 1)的分析发现,树鼩基因组中的LINE1占基因组的18.54%,这种基因组占比和人类的类似。与包括人类、猕猴和小鼠的基因组结构变异(genomic structural variation)对比分析后发现,相比较于人类,树鼩基因组中含有221个结构变异,猕猴基因组中有188个结构变异,而小鼠基因组中的结构变异多达387个。有趣的是,一些结构变异,如位于MYSM1基因和SLC35D1基因间的区域,只出现在树鼩和灵长类动物中,这一结果也从结构变异的角度说明,相比于小鼠,树鼩与灵长类动物在基因组方面有更高的相似性。
通过对6只野生树鼩的全基因组二代技术重测序,获得基因组水平上约1280万个单核苷酸遗传变异信息。这些信息对了解树鼩的进化历史、表型特征和疾病模型创建等提供了基础。基于蛋白编码基因区的单核苷酸变异信息,范宇等人分析了野生树鼩的多项群体遗传学参数,获取了关于树鼩群体全基因组学水平的更多认识。如基于核苷酸多样性(π)的分析发现,树鼩蛋白编码基因区域存在30个核苷酸多样性较高(π > 0.025)的区域,其中约1/6的区域位于主要组织相容性复合体MHC(major histocompatibility complex)或免疫球蛋白(immunoglobulin)基因家族中,该结果间接提示,树鼩免疫基因相对于基因组中其他基因,可能有较高的进化速率,这和树鼩免疫系统基因的特殊性可能具有联系。
目前,树鼩已被用于感染性疾病如乙型肝炎、丙型肝炎、疱疹病毒感染、禽流感病毒感染等模型创建,在视觉系统研究、近视模型,以及一些肿瘤模型构建方面,显示了很好的前景。来自中国科学院昆明动物研究所的研究团队,对树鼩开展了长期而深入的研究,先后主导完成了树鼩高质量基因组测定、基于树鼩精原干细胞的转基因技术突破、树鼩特殊遗传特性和生活习性的解析等工作,拓展了人们对于这一新型实验动物的认识。
为了更好地展示最新版的树鼩基因组信息,研究人员将新版基因组数据、注释信息、群体遗传学参数、预测的基因共表达网络等数据,增加或更新在第二版树鼩基因组数据库(TreeshrewDB v2.0)中。这些用户友好型的数据库构建与更新,将为树鼩动物模型的研究提供相关基础数据,有望继续惠及树鼩研究领域。
上述研究工作以Chromosomal level assembly and population sequencing of the Chinese tree shrew genome为题,发表在Zoological Research上。相信树鼩染色体级别的基因组组装与数据库建设这一研究工作,能为国内成长起来的科技期刊助力发展,这也是落实国家《关于深化改革 培育世界一流科技期刊的意见》文件精神的实际动作。该研究工作得到国家自然科学基金委、中科院和云南省的资助。