第 4 章

孟德尔随机化：用基因当随机数发生器

当五十万人的基因组变成一台因果推断机器，它能告诉我们多少真相？

6688 字 · 约 20 分钟

1986年，荷兰遗传流行病学家马丁·卡坦坐在一间办公室里，对着一摞关于血液胆固醇与心脏病的流行病学数据皱眉头。那个年代，"高胆固醇导致心脏病"已经是医学界的半个共识，但卡坦知道其中有个无法绕开的漏洞：喜欢吃黄油的人，往往也不爱运动，也可能更富裕，也可能有更多其他说不清的生活习惯。胆固醇与心脏病的关联，究竟是真实的因果链条，还是某个藏在暗处的第三方变量在同时拉动两根绳子？卡坦在那篇几乎无人引用的短文里提出了一个奇特的构想：如果能找到一种基因变异，它天生就决定一个人的血液胆固醇水平偏高或偏低，而这种基因在受精那一刻就随机分配给了每一个人，与此人后来的饮食、运动、财富统统无关，那么比较"天生高胆固醇基因携带者"和"天生低胆固醇基因携带者"的心脏病发病率，不就等于做了一场大自然替我们安排的随机对照试验？这个构想在当时几乎是空中楼阁。基因组数据贵如黄金，大规模人群研究更是遥不可及。卡坦的想法沉睡了将近二十年，直到一个拥有五十万份基因组的数据库在大西洋彼岸悄然成形。

本章要点

孟德尔随机化是一种用基因变异模拟随机分组、从而绕开混杂因素干扰的因果推断方法，而英国生物样本库凭借其五十万人规模、约九千六百万个可检验遗传变异位点，已成为这一方法最重要的"天然实验室"。然而，这台机器在加速因果推断研究的同时，也暴露出三重系统性张力：其一，基因变异"身兼数职"同时影响多条生物通路（即多效性）的现象，从根本上威胁着因果推断的可靠性；其二，全球数千个研究团队同时对同一批数据发起分析，多重比较产生的假阳性信号正在以难以察觉的方式污染文献；其三，这个宣称"向全球开放"的资源，其实际可及性从未被系统测量，开放科学的承诺与现实之间存在一道无人丈量的鸿沟。

🔒

继续阅读，需要会员

本章及之后的章节为会员专属内容。第 1 章免费试读，订阅后可读完整专题，并解锁所有周深读长文。

升级会员