第 4 章
孟德尔随机化:用基因当随机数发生器
当五十万人的基因组变成一台因果推断机器,它能告诉我们多少真相?
6688 字 · 约 20 分钟
1986年,荷兰遗传流行病学家马丁·卡坦坐在一间办公室里,对着一摞关于血液胆固醇与心脏病的流行病学数据皱眉头。那个年代,"高胆固醇导致心脏病"已经是医学界的半个共识,但卡坦知道其中有个无法绕开的漏洞:喜欢吃黄油的人,往往也不爱运动,也可能更富裕,也可能有更多其他说不清的生活习惯。胆固醇与心脏病的关联,究竟是真实的因果链条,还是某个藏在暗处的第三方变量在同时拉动两根绳子? 卡坦在那篇几乎无人引用的短文里提出了一个奇特的构想:如果能找到一种基因变异,它天生就决定一个人的血液胆固醇水平偏高或偏低,而这种基因在受精那一刻就随机分配给了每一个人,与此人后来的饮食、运动、财富统统无关,那么比较"天生高胆固醇基因携带者"和"天生低胆固醇基因携带者"的心脏病发病率,不就等于做了一场大自然替我们安排的随机对照试验? 这个构想在当时几乎是空中楼阁。基因组数据贵如黄金,大规模人群研究更是遥不可及。卡坦的想法沉睡了将近二十年,直到一个拥有五十万份基因组的数据库在大西洋彼岸悄然成形。
本章要点
孟德尔随机化是一种用基因变异模拟随机分组、从而绕开混杂因素干扰的因果推断方法,而英国生物样本库凭借其五十万人规模、约九千六百万个可检验遗传变异位点,已成为这一方法最重要的"天然实验室"。然而,这台机器在加速因果推断研究的同时,也暴露出三重系统性张力:其一,基因变异"身兼数职"同时影响多条生物通路(即多效性)的现象,从根本上威胁着因果推断的可靠性;其二,全球数千个研究团队同时对同一批数据发起分析,多重比较产生的假阳性信号正在以难以察觉的方式污染文献;其三,这个宣称"向全球开放"的资源,其实际可及性从未被系统测量,开放科学的承诺与现实之间存在一道无人丈量的鸿沟。
🔒
继续阅读,需要会员
本章及之后的章节为会员专属内容。第 1 章免费试读,订阅后可读完整专题,并解锁所有周深读长文。
升级会员