近日,中国科学院昆明动物研究所张亚平院士和马占山研究员领导的团队发布了以“10x Genomics测序”辅助“三代测序”的混合组装策略和软件技术。研究人员采用美国加州大学Jain等人2018年发表在 Nature Biotechnology(doi: 10.1038/nbt.4060.)的人类基因组三代测序数据进行了示范测试,结果表明:新方法能够将测序深度从Jain等所用的35倍降低至7倍,降低幅度达80%;转换成测序成本,新技术其成本大约是纯三代测序的1/4。该技术发明专利已正式受理,相关论文于2018年末在线发表于国际刊物 Genomics (https://doi.org/10.1016/j.ygeno.2018.12.013)。 新技术由于能够大幅度降低三代测序所需成本,从而为进一步推进测序技术从目前主流的二代技术向三代技术的产业升级再次提供了良好契机。
基因测序技术系生命科学和生物科技的核心技术之一,目前正处在从主流的二代测序技术向三代技术进行产业升级的过渡阶段。三代技术以其超长读段(最新技术可达1兆),较之以短读段取胜的二代技术具备诸多技术优势,无疑是测序技术的未来。但三代技术在与二代技术竞争中,也存在两大劣势:其一是三代测序硬件(测序仪)的碱基水平(base-pair)错误率至今仍然高达15%(而二代测序错误率不到1%),其二是目前测序成本仍然居高不下。
事实上,三代测序超高错误率也使得三代测序数据的组装分析遇到了极大挑战。例如,五年前的2014年,主流的三代基因测序软件在组装人类基因组时,仅“多重比对”一步就耗时400,000个CPU小时,而且是借助了谷歌公司超级计算机集群。2014年马占山与美国马里兰大学叶承羲合作发布的三代测序组装软件(DBG2OLC)将这一计算步骤减少到了大约6小时,而且是在一台普通工作站完成。DBG2OLC使得原本需要超级计算机集群才能完成的计算可以在普通工作站上完成,目前DBG2OLC仍然是三代测序软件中运行速度最快、内存需求最少的软件和算法。2016年他们合作发布了另一款用于三代测序纠错的软件SPARC: 该软件将三代测序软件技术的组装错误率降低到 0.5%以下;与当时最优秀的同类软件相比, 并可节省计算时间和内存达 80%。正是先前发布的DBG2OLC和SPARC软件不仅有效弥补了三代测序硬件技术超高错误率的缺陷,而且也为最新的“10x技术辅助的混合三代测序”奠定了高效、可靠的算法和软件基础。此次所发布的技术仍然得到了叶承羲博士的密切合作。
此次发布的新混合组装技术所采用的另一技术“10x测序技术”为“10xGenomics”公司研发,本质上属于二代测序技术,但其所采用的特殊标记技术能够更加有效地辅助三代测序基因数据的组装。有趣的是,新技术很可能撬动测序市场目前测序硬件制造商(测序仪)之间的合作和竞争关系。10xGenomics公司目前掌握的10x测序标记技术依赖于二代测序仪(Illumina), 他们之间形成了自然产业链关系。而此次新技术发布不仅可能拓宽10x公司的合作选择,更可能改善他们所经营的其他技术,特别是单细胞测序技术的优势。当然,该技术最大受益者仍然应该是三代测序仪制造商。更有趣的是:长期以来,基因测序硬件制造商基本上拒绝投资软件技术,而是搭开源软件和科学家的“便车”。正如《Genomics》 杂志同行审稿学者之一所指出的:“The idea of combining 10X Genomics with the 3GS approaches is fairly obvious, and likely to be happening in some sequencing centres already, which may not have thought it novel enough to warrant reporting. The new software on the other hand adds substantial value to the study.” 如果软件技术能够撬动未来基因测序产业链生态关系,生物科技领域软件的重要性或许会受到更多的重视!
相关工作得到国家自然科学基金、云岭产业技术领军人才、云南省国际合作基金等项目资助。论文信息:Ma ZS, LW Li, CX Ye, MS Peng, YP Zhang (2018) Hybrid assembly of ultra-long Nanopore reads augmented with 10×-genomics contigs: Demonstrated with a human genome. Genomics, vol. 110, https://doi.org/10.1016/j.ygeno.2018.12.013