遗传多样性概念起源于种群(也称群体)遗传学,因此其度量依赖于对一个群体遗传信息的测量和计算。例如,某种基因突变的多样性是指在一个群体(例如华人)中的多样性,但对于其中成员(即某华人个体),并没有一个对应的突变多样性值。而且,在一个群体内部,基因突变的分布既非均匀分布,通常也非随机分布或者正态分布,更多时候是服从所谓“长尾偏态分布”。简单讲,长尾偏态分布是指一大类概率分布,其最大特点就是数据(突变)的频次分布高度非对称,并具有一个长长的“尾巴”,而与大家所熟悉的正态分布所具有的对称(或者钟形)形成极为鲜明的对比。偏态分布所描述的典型现象例如:“80/20原理”、财富分布的不均匀性等。通常讲“收入被平均”其实源于偏态分布重要的数学特性之一,就是所谓“无均值” 特征。无均值特征并不是说计算不出一个均值;事实上,任何一组数字都可以算出一个均值,只不过计算出来的均值(例如平均收入)或许并不能代表群体中大多数个体的特征,而使得群体水平的特征失去了对现实中多数个体的代表性。像抽烟(作为可能诱导基因突变的因素之一)与肺癌发生之间的关系或许是另外一个例子:即采用平均值计算出的患病风险对于多数个体意义并不大。
为了克服以上群体水平遗传多样性的局限性,中科院昆明动物研究所马占山学科组与遗传学家张亚平院士合作提出了“个体水平遗传多样性”的概念,并给出了基于“Rényi 熵”的度量体系。 Rényi 熵由匈牙利数学家 Alfréd Rényi 提出。在通讯领域和生物多样性领域广为人知的香农(Shannon)熵则是 Rényi 熵的特例之一。 Alfréd Rényi (1921-1970) 研究涉猎极为广泛,最有影响的工作包括对哥德巴赫猜想证明的研究和与 Paul Erd?s 共同开创的“随机图论”。陈景润对哥德巴赫猜想的证明工作,正是对 Rényi 工作的大幅度推进。而诞生于1950年代的随机图论在过去20年成为了复杂网络科学的基础,在互联网时代家喻户晓的社交软件(微博.微信.脸书.推特)更是无不例外的隐含着网络算法。 Rényi熵还有可能鲜为人知的另一重要应用:量子纠缠的信息度量。
学者们之所以选择 Rényi熵,而不是在遗传多样性领域已经广泛使用的Shannon熵原因是:前者有阶数(Order), Rényi 熵因此由一系列对应于不同阶数的熵值(实数)构成,而Shannon熵仅仅是单一值。事实上,Shannon熵正好对应于Rényi 熵在阶数q=1时的值。用一个初等数学中例子做比喻:就是多项式有不同阶数,一阶多项式是最简单的线性函数、二阶多项式是大家熟知的抛物线、三阶函数已经非常复杂了。 Rényi其实不限于自然数,可以是分数例如 (1/2, 1/3…)。在数据统计分析中,如果阶数足够高,数据质量足够好,一般都可以找出一条理想的多项式模型去逼近任意一条曲线;足以说明阶数概念的重要性。那么阶数(q)在度量遗传突变时有什么用?不同阶数的熵值对不同突变频率敏感不同。例如高阶熵对于突变频率较高的基因位点可能更敏感。于是人们可以选择对适合于自己检测目的的阶数加以特别关注。
“个体水平遗传多样性”概念中的“个体”水平并不限于单个人体,可以小到一条染色体,或者染色体片段,甚至可以是染色体上一组基因(例如所有与某种癌症相关的基因片段),当然也可以是某个人所具有的整个基因组,这也使得新概念的使用更加灵活方便。例如,如果采用个体水平遗传多样性概念和度量体系,未来我们体检报告中就有可能加入一项完全个性化的“遗传突变多样性值”。如前所述,个体多样性实际上将是一系列不同阶数的熵值,有些阶数可能对衰老敏感,而另外一些可能对疾病变化更敏感。随着数据的逐年积累,这些指标对检测健康状况的意义也随之提高。这些信息对于实现个性化精准医疗显然具有重要指导意义,因此个体水平遗传多样性则有望成为个性化医疗领域重要的生物信息工具之一。
基因检测或许会是“个体水平遗传多样性”另一重要潜在应用领域。科研人员采用了国际“千人基因组”(1000-Genome)项目数据进行了综合示范和验证,并公布了计算程序, 相关发明专利已进入实质审核阶段。论文近日发表于Scientific Reports, 其出处为:Ma ZS, LW Li & YP Zhang (2020) Defining Individual-Level Genetic Diversity and Similarity Profiles. https://www.nature.com/articles/s41598-020-62362-8