挖掘肿瘤大数据有助于识别和总结肿瘤发生、发展过程的分子变化规律。然而,肿瘤组织高度异质性、批次效应等因素是肿瘤数据分析的重要难题,而目前常用的转录组数据分析方法对于肿瘤离群值极度敏感,容易产生假阴性结果。针对此,中科院昆明动物所研究人员开发了一种新的不依赖均一化、非参的高维大数据分析算法(Cross-Value Association Analysis,CVAA)。基于对同一批转录组数据(1037个乳腺肿瘤和110个正常组织)的分析结果揭示:与T-Test、edgeR及DESeq等常用算法相比,CVAA在处理异质性数据时能明显地减少异常样本的影响和假阴性结果(图1)。
进一步将CVAA应用于TCGA数据库的5540个肿瘤(13种实体瘤)及正常组织的RNA-Seq转录组数据,研究人员成功鉴定到大量肿瘤显著差异表达基因,且不同肿瘤之间存在很多相似的基因转录紊乱模式。进而,针对新甄别得到的新的肿瘤相关基因和生物学途径,如酒精代谢途径(ADH1B基因)、补体途径(Adipsin)等。研究人员筛选了10个未被报道的基因进行了体内外功能验证研究,结果发现其表达量变化均能显著抑制肿瘤细胞的增殖和/或迁移,且部分基因(ADH1B和NCAPH)表达量改变显著影响病人生存率和体外移植瘤的生长(图2)。因此,该项工作不但成功鉴定出大量新的肿瘤相关基因和通路,为深入理解肿瘤发生发展提供研究靶标,同时也表明CVAA算法在大批量、异质性数据分析中具有重要的应用价值。该研究成果于近期发表在国际重要期刊Theranostics上(http://www.thno.org/v07p2888.htm),助理研究员李其刚、副研究员何永捍、博士生吴焕和副研究员杨翠萍为共同第一作者,孔庆鹏研究员和陈勇彬研究员为共同通讯作者。该项目得到中国科学院、国家自然科学基金、云南应用基础研究和中国科学院青年创新促进会等项目的支持。