第 3 章

四十八万个基因组，一夜之间重写关联研究的规则

从寻找单个变异到刻画多基因结构，一场悄然发生的范式迁移

5310 字 · 约 16 分钟

2018年秋天，牛津大学韦尔科姆人类遗传学中心的服务器机房里，一组压缩文件包静静等待着全球研究者的下载请求。文件的体量以太字节计，内容是约五十万名英国人的全基因组数据——经过质控、填充、注释，整理成可以直接导入统计软件的格式。没有剪彩仪式，没有新闻发布会，只有一篇发表在《自然》杂志上的技术论文，第一作者是克莱尔·拜克罗夫特，通讯作者是乔纳森·马尔钱尼。论文的摘要用平静的语气描述了一件前所未有的事：通过高效的单倍型分型和基因型填充，这批数据将可检验的遗传变异数量扩展至约九千六百万个。对于遗传流行病学界来说，这个数字意味着一道门槛被悄然跨越。此前十余年，全基因组关联研究的逻辑是"寻找"——在数百万个位点中搜寻与疾病相关的那几个、那几十个、那几百个变异。此后，这个逻辑开始变成另一件事：理解一种疾病的遗传结构，究竟由多少个微小效应叠加而成，以及这种叠加能否被转化为对个体风险的预测。同年，哈佛医学院的塞卡尔·科拉团队用这批数据中的四十余万人，给出了一个让临床医学界既兴奋又困惑的答案。

本章要点

2018年，拜克罗夫特团队将英国生物样本库约五十万参与者的可检验遗传变异扩展至九千六百万个，这批数据随即成为多基因风险评分研究的核心燃料。科拉团队利用其中逾四十万人的数据，为五种常见病构建出覆盖数百万变异的综合风险评分，发现8%的人群携带与家族性高胆固醇血症突变携带者相当的冠心病遗传负担——而传统临床指标几乎无法识别这批人。这一发现揭示了三重张力：质控流程本身制造了样本偏差，多基因"携带者"的类比在科学上存在根本性裂缝，以及当评分进入诊室，临床医生面对的将是一个没有配套干预证据的概率数字。

🔒

继续阅读，需要会员

本章及之后的章节为会员专属内容。第 1 章免费试读，订阅后可读完整专题，并解锁所有周深读长文。

升级会员