科研动态     首页 > 新闻动态 > 科研动态
如何处理昆虫(生物医学)实验中“夭折” 样本所产生的“删失”数据?
2021-05-07 来源:计算生物与医学生态学组 作者:

  自然界中生物个体寿命各异,即使同一物种,甚至孪生兄弟、姐妹的寿命也可能并不相同。或可谓即使同年同月同日生,未必同年同月同日卒!究其原因:首先个体间先天遗传背景各异;其次后天所经历的生存(死亡)风险(包括基因突变)也通常不同,而且其生存风险通常是多元(例如:心血管、传染病、天灾人祸等)。并且,这些风险之间通常也存在竞争关系(即所谓的竞争风险),但生物有机体通常是死于众多风险中的一种。例如一个正在参加某药物临床实验的病人,或许会不幸死于交通事故。这一现象其实不限于生物有机体,我们还可以举出例如飞机、军舰的退役年限等诸多例子,就连一部本来品质良好的手机,也可能因为意外被摔得四分五裂,以至于早早进了回收站。 

  生物医学实验中,对于如何处理此类夭折个体,有一套专门的统计方法,称之为生存分析Survival analysis) 生存分析最显著的特征包括:(1)其研究对象为一类取值为正实数、描述事件发生时间的随机变量;例如死亡发生时间、交通事故发生时间、飞行事故发生时间。当然事件也可以是好事:例如病人康复事件、安全飞行时间、网约车到达时间等等;(2)实验或观察过程中不可避免地会出现观察对象的夭折早逝,导致部分观察样本(时间)的不完整性,谓之删失数据” (Censored data) 

  我们可以试想一项征招了200人的二期临床医学实验,如何处理其中的意外死亡或退出实验的个体其实是一大挑战!在这200位术后病人中, 难免有个别受试者可能死于意外(例如交通事故),或死于其它疾病(例如突发传染病),或者干脆拒绝追踪。那么,在实验结束后计算存活率时候,究竟应包括那些意外早逝的个体,还是应该排除他们? 摆脱这一困境的努力(也就是生存分析)始于1960年代,时至今日其理论和应用仍然是一些概率统计学家所专注的热点研究领域。事实上,生存分析即使在生物医学领域应用也是到了1980年代才起步,首部多元生存分析的专著的出版仅仅是21世纪初的事,并且至今仍然是该领域唯一专著。统计学家 O’Quigley2008年写道:过去数十年中,虽然全球一些知名大学的统计学系作出了大量努力来教授生存分析的核心内容,但没有多少人可以宣称学生们真正了解这个领域的进展,而例外可能仅仅限于少数精通数学分析的学生。这一现状着实令人担忧O’Quigley所提到的数学分析(Mathematical analysis)其实是指 Real Analysis (实变函数)。而通常仅仅是数学专业教授的实变函数,其实仅仅是能够理解生存分析所需要的概率论知识的基础之一。事实上,概率论有两种教授方法,一种是采用排列组合数学方法讲授的初等概率论,另一种则是基于实变函数的高等概率论。而要讲授生存分析、特别是最新的多元生存分析则必须依赖于高等概率论。于是尴尬出现了,生物医学、甚至生物统计专业学生通常很少会有实变函数或高等概率论的训练。或许正是由于像O’Quigley所指出的障碍,目前国内外大学对于生存分析的教授可以说是严重不足。理想状况应该是:生存分析应该是生物统计的主要内容;但这种理想的内容安排通常仅仅是在一些顶尖医学院的生物统计课程安排中,而在一般生物统计教科书中,生存分析通常仅仅是一章。在一般科研论文中,也很少有人会对样本大小(n) 作出特别说明: 也就是说,如果实验开始选择了 n 个样本,到实验结束还是 n 个样本;或者即使告诉了你,最后有m个样本中途没有观察完, 结果就是(n-m)个样本的结果。 除非删失样本太多了,以至于剩下样本太少了,否则可能没有多少人关心样本大小变化,也就是数据删失所可能导致的统计分析问题。而生存分析与普通统计分析区别就在于,前者采用复杂的概率模型能够从删失数据(样本)提取部分信息,从而能够对所研究的问题作出更加科学的分析,得出更加可靠的结果。因此,生存分析避免了对夭折样本所产生的删失数据的随意处理。 

  在一篇最新发表题为“A unified survival-analysis approach to insect population development and survival times”的论文中,作者对于昆虫发育和存活试验研究中的删失数据提出了统一处理方法。昆虫发育过程一般要经历四个阶段:卵、幼虫、蛹、成虫。昆虫幼虫需要经历一系列蜕皮过程,每一次蜕皮昆虫生长一龄,例如破茧成蝶就是毛虫的最后一次蜕皮。昆虫发育有一个先天的问题,就是昆虫个体不仅发育速度可能各异,而且所经历的虫龄数也可能不同。即使同一种昆虫,有些幼虫(例如毛毛虫)可能要经历三次脱皮、有些可能经历四次、另外一些可能要经历五次或者更多次脱皮才能发育为性成熟的成虫(例如蝴蝶)(这里三、四、五龄仅仅是随便列举例子,昆虫种类不同,可能龄数范围也可能各异)。而真正的挑战是,如果一个幼虫在发育为成虫的早期就死亡了(例如死于三龄),则我们永远也无法知道那些过早死亡的幼虫可能的虫龄数是四龄还是五龄。如果连虫龄数都无法知道,则虫龄龄期更是无从知晓。因此,昆虫生长发育研究中, 删失数据无法避免。鉴于这一自然现象,昆虫生长发育研究则应该应用生存分析!该项研究发现,生存分析和普通统计分析方法间的差异从5%25%不等。这一数据,虽然只是基于一种昆虫(俄罗斯蚜虫),但首次提供了对昆虫发育中两种统计方法差异的定量估计。基于这一发现,该研究示范了应用生存分析方法估计昆虫发育和存活的概率模型。基于生长发育生存分析模型,则可以模拟昆虫种群动态。 

  此次发表的主要内容来源于1997年马占山完成的昆虫学博士毕业论文 ,由于作者毕业后选择了IT领域工作,该博士论文直到2008年才开始投稿发表。2008-2010年之间从该博士论文发表于7SCI论文,包括了美国昆虫学会和英国皇家昆虫学会最古老、也是当今旗舰杂志的昆虫学期刊。此次发表的论文系该博士论文第8篇。文章审稿人和编辑认为,尽管该工作完成于上世纪90年代,但其在昆虫学领域的重要贡献使得其在20余载之后仍值得公开发表。事实上,基于这一方法的应用研究已经于2008年公开发表,此次发表内容系基础方法部分。 

  显然,生存分析的应用不止于生物医学,工程可靠性领域、网络可存活性领域也是生存分析重要应用领域。生存分析与博弈论的结合更是能够产生丰富的研究课题。从信息战略研究角度,关于信息(或者对事物的认知)可以归位四类:(1) 知知(known known, (2) 知未知(known unknown; (3) 未知知(unknown known; (4) 不知未知(unknown unknown)。 传统统计学足以研究第一类事件,但对后面三种事件研究则存在严重的局限性。但现实是,所谓的黑天鹅、灰犀牛现象则更多的是涉及后三类信息。而生存分析所研究的删失数据应该是为数不多的极少数能够处理第二类信息(known unknown) 的数学或统计方法之一(如果不是唯一),而它与博弈论的结合可能为研究第三、四类信息系统提供少有的定量研究方法,其重要性显而易见 

  Ma ZS (2021) A unified survival analysis approach to insect population development and survival times, Scientific Reports: https://www.nature.com/articles/s41598-021-87264-1 


Copyright © 2018- 中国科学院昆明动物研究所 .All Rights Reserved
地址:云南省昆明市盘龙区茨坝街道龙欣路17号  邮编:650201
电子邮件:yangxi@mail.kiz.ac.cn
滇ICP备05000723-1号       滇公网安备 53010202000920号