1

十二万护士为什么值得被追踪半个世纪

一份基线问卷、三条暴露线索,与美国女性流行病学的缺席史

4700 字 · 约 14 分钟

1976年6月,波士顿的夏天还没有完全热起来,哈佛医学院查宁实验室的邮件室里,工作人员正在处理一批数量惊人的信封。那是238,026份问卷,将被寄往美国东西海岸十一个州的注册护士家中。每份问卷有四页,印着关于月经史、生育史、口服避孕药使用情况、吸烟习惯和染发剂使用的问题。设计这份问卷的弗兰克·斯派泽是哈佛医学院的流行病学家,他知道这批信封里装的不只是问题,而是一个赌注:护士会回复,护士会如实回答,护士会在未来数十年里持续配合随访。如果他押错了,这将只是一次规模庞大的行政浪费。如果他押对了,这将成为美国女性健康研究史上规模最大的前瞻性队列,一个能追踪数十万人、跨越半个世纪的生命数据库。

本章要点

1976年启动的护士健康研究,是口服避孕药安全性危机与女性吸烟数据空白两条研究议程在方法论困境中合流的产物。斯派泽团队选择已婚注册护士作为研究对象,本质上是以职业群体的依从性换取队列的规模与精度,在一个女性几乎缺席临床流行病学的年代,用一份邮件问卷撬开了制度性的研究空白。三轮问卷回收122,690份有效答卷,回复率71.2%,证明了这个赌注的基本逻辑,也同时埋下了选择偏倚的隐患,这个隐患将伴随这项研究的全部生命周期。

一颗药丸引发的流行病学债务

1960年代初,美国食品药品监督管理局批准了第一款口服避孕药上市,这在医学史上是一件罕见的事:一种供健康人长期服用、以改变正常生理功能为目的的药物,在大规模人群数据几乎为零的情况下进入了市场。此后十余年,副作用报告持续积累,包括血栓、中风和心血管事件,但这些报告大多是病例系列或临床观察,缺乏系统性流行病学证据的支撑或反驳。

到1973年,问题的规模已经无法回避。已婚避孕女性中,69.2%在使用现代避孕方法,其中口服避孕药占36.1%,使用者约达670万人。这个数字意味着,如果口服避孕药与任何一种慢性病之间存在哪怕微弱的关联,其公共卫生后果都将是巨大的。

1970年,美国国会就口服避孕药安全性举行了听证会,数百万女性用药者的健康风险成为全国性政治议题。但政治压力本身无法产生流行病学证据。问题在于,要研究一种药物对健康女性的长期影响,需要在她们尚未患病时就开始追踪,需要知道谁在用药、谁没有用药,需要在数年乃至数十年后比较两组人的疾病发生率。这正是前瞻性队列研究的逻辑,也是其代价所在:时间长、成本高、失访风险大。

斯派泽面对的,是一笔尚未偿还的流行病学债务。

吸烟数据的性别空白

与口服避孕药议题并行的,是另一条更早被意识到、却同样悬而未决的研究线索:吸烟对女性健康的影响。

1964年,美国卫生总监报告正式确认了吸烟与肺癌及心脏病的因果关系,但这份报告的证据基础主要来自男性研究数据。女性吸烟的健康效应,在那个时代的流行病学文献中几乎是一片空白。斯派泽在设计护士健康研究时,直接在研究文件中写下了这个判断:吸烟对健康的影响"已在男性中得到充分证实",言下之意是女性数据的空白亟待填补。

这并非一个附属议题。到1976年基线问卷回收时,34.5%的护士正在吸烟,另有24.3%曾经规律吸烟。这意味着队列中超过半数的人有吸烟暴露史,足以支撑独立的统计分析。吸烟史与口服避孕药使用史一起,成为基线问卷的两条核心暴露线索。

但斯派泽的设计并未止步于此。问卷还纳入了染发剂使用史,以及绝经后雌激素的使用情况。在基线数据中,25.3%的护士当前使用永久性染发剂,31%已绝经,其中46%曾使用绝经后雌激素。这意味着从第一份问卷寄出的那一刻,这项研究就已经不只是一个关于避孕药的研究,而是一个关于女性生命全周期暴露的数据收集系统。

这种多议题合并设计,是深思熟虑的科学布局,还是机会主义的议程叠加?这个问题将在后来的方法论争议中反复被提起。

为什么偏偏是护士

斯派泽在研究文件中对选择护士的理由给出了三个词:智识水平高、配合度强、具有健康意识。这三个词背后,是一个具体的方法论逻辑。

前瞻性队列研究的质量,在很大程度上取决于随访率,也就是研究者能持续追踪到的参与者比例。随访率越高,结论越可信;若大量参与者中途失联,留下来的人可能在健康状况上与失联者存在系统性差异,从而扭曲研究结果。斯派泽的判断是,护士作为职业群体,比普通女性人群更可能在数年乃至数十年的随访中保持配合。这是一个无法在研究开始前被证明的假设,只能被押注。

选择护士还有另一层实际考量。研究的有效性,斯派泽明确指出,"关键依赖于高随访率以及关于各类疾病在用药者与非用药者之间完整、准确的信息"。护士具备基本的医学知识,能够理解问卷中的疾病分类和用药术语,能够准确回忆自己的用药史和疾病史,能够在接到随访问卷时识别出自己是否被诊断过某种疾病。这种信息准确性,对于依赖自我报告数据的流行病学研究而言,价值难以高估。

抽样框架的建立,依赖于一个关键的制度性资源。1972年,美国护士协会建立了全国注册护士档案,收录了婚姻状况、年龄、教育程度等人口学数据,并获得11个州护理委员会的授权,管理符合条件护士的姓名与地址信息。斯派泽团队从这份档案中,筛选出居住在护士注册人数最多的11个州、出生于1921年至1946年之间(即30至55岁年龄段)的已婚注册护士,共238,026人。

年龄段的选择同样有其逻辑。30至55岁是女性口服避孕药使用的主要年龄窗口,也是绝经前后激素变化最为剧烈的时期,更是多种慢性病开始显现的阶段。这个年龄段的女性,既有足够长的暴露史可供回溯,又有足够长的预期寿命可供前瞻性追踪。

但这个抽样策略本身就埋下了一个方法论问题:选择了护士,就选择了一个在教育程度、职业背景和健康意识上高度同质的群体。这个群体能代表普通美国女性吗?

三轮信封与71.2%的答案

1976年6月,第一批问卷寄出。9月,针对未回复者和地址变更者,第二批问卷寄出。12月,第三批问卷寄出。

在238,026份问卷中,65,241份因地址无法转寄被退回,约占总数的27%。这个数字并不令人意外,却揭示了一个现实的方法论局限:护士协会档案建立于1972年,与问卷发放之间有四年的时间差,这四年里有人搬家、有人改嫁、有人离开护理行业。行政数据的滞后,是任何依赖现有档案进行抽样的研究都必须承受的代价。另有372份因收件人死亡退回。

最终,122,690份有效问卷回收,三轮合计回复率71.2%。

这个数字,是斯派泽押注的兑现。71.2%的回复率,在当时同类研究中属于高水平,也成为后来向美国国立卫生研究院申请追加经费、支持长期随访的关键依据。护士依从性假设,在第一轮数据面前站住了。

基线数据揭示的暴露全貌,为后续研究提供了一个历史起点。43%的护士曾使用口服避孕药,但当前使用率仅5.5%,提示避孕实践在1976年已从高峰回落,研究将主要捕捉历史暴露数据而非当前暴露。3,536人(占2.9%)在基线时已自报癌症诊断,其中乳腺癌1,130例,宫颈癌571例。279人(占2.3%)曾因心肌梗死住院,其中绝经前156例,绝经后123例。这些基线疾病数据,将成为前瞻性随访的历史对照基准。

但71.2%意味着28.8%的人没有回复。这些沉默者是谁?她们的健康状况、暴露模式与回复者有何不同?斯派泽在研究文件中没有回答这个问题,因为没有数据可以回答。这个问题将以"选择偏倚"的名义,在此后数十年的方法论争议中持续出现。

一个缺席时代的制度突破

要理解护士健康研究的制度意义,需要知道1976年之前的美国临床流行病学是什么样的。

1948年启动的弗雷明汉心脏研究,确立了长期前瞻性队列研究的方法论范式,追踪健康人群数十年以观察疾病发生。但弗雷明汉研究的核心关注是心血管疾病,其早期分析以男性数据为主,女性健康数据长期处于次要位置。在更广泛的临床研究领域,女性作为独立研究对象的缺席,是一个结构性问题,而非个别研究者的疏忽。

护士健康研究在制度层面的突破,首先体现在规模上。斯派泽在研究文件中指出,当时共有四项同类研究在进行,其中两项在英国,一项在美国(沃尔纳特克里克避孕药研究)。护士健康研究的独特之处,在于能够采用邮件问卷设计,"主要因为美国护士的专业知识与健康意识",由此成为"同类研究中规模最大的"。122,690人的队列,在当时的女性健康研究中是前所未有的数字。

其次是外部效度的正面回应。批评者最直接的质疑是:护士不能代表普通美国女性,她们的教育背景、职业习惯和健康意识使她们成为一个特殊群体,从她们身上得出的结论无法推广。斯派泽的回应是直接的:护士人群报告的暴露频率与疾病频率"与30至55岁全体美国女性的预期频率大体相符",因此研究结论"可能可以推广至全体美国女性"。这是一个经验性而非逻辑性的回答,其说服力取决于"大体相符"的程度。

第三是研究议题本身的政治语境。1970年的国会听证会,将女性生殖健康研究的缺失变成了一个公开的政治问题。护士健康研究的启动,是在这个政治背景下,联邦卫生研究经费(美国国立卫生研究院项目编号CA 16686与CA 23645)向女性健康领域倾斜的具体结果。斯派泽的研究,在某种意义上是一个制度性回应,回应的是一个已经被政治化的科学空白。

这个背景很重要,因为它解释了为什么这项研究能够获得资金、能够获得护士协会的档案授权、能够在三轮邮件问卷之后继续获得追加支持。护士健康研究不只是一个科学项目,也是一个历史时机的产物。

多议题设计的双重解读

回到那份基线问卷。四页纸,涵盖口服避孕药使用史、吸烟史、染发剂使用史、绝经后雌激素使用情况、生育史、月经史,以及基线时已发生的疾病诊断。

从一个角度看,这是一个有远见的多议题设计。斯派泽知道,建立一个12万人的前瞻性队列需要巨大的资源投入,每一次随访都是成本。如果在同一份问卷中同时收集多个暴露变量,就能以相同的成本回答多个研究问题。口服避孕药、吸烟、激素替代疗法,这三条暴露线索在生物学上并不独立,它们共同作用于女性的心血管系统、内分泌系统和肿瘤风险,在同一个队列中同时追踪,能够产生单一议题研究无法实现的交叉分析。

从另一个角度看,这是一个议程叠加的风险。当一项研究同时承载多个研究问题时,每个问题的优先级、样本量计算和统计检验策略都可能相互干扰。如果研究的主要假设是口服避孕药与乳腺癌的关联,那么样本量和随访设计应当围绕这个假设优化;如果同时还要回答吸烟与肺癌的关联,两者的优化方向可能并不一致。

斯派泽的选择,是将这种张力内化为研究设计的一部分。这个选择的科学代价,将在后来的每一项具体发现中被重新审视。

值得注意的是,基线时已绝经护士中46%曾使用绝经后雌激素,这个数字在1976年并不是一个边缘议题。绝经后激素替代疗法在当时已经是一个广泛使用的临床实践,其与心血管疾病和乳腺癌的关联,将在未来数十年内成为护士健康研究最具争议性的发现之一。斯派泽在基线问卷中纳入这一暴露变量,无论是出于预见还是出于全面性的考量,都为后来的研究奠定了数据基础。

结语

1976年夏天寄出的那238,026份信封,最终收回了122,690份答案。71.2%的回复率证明了斯派泽的基本假设:护士会配合。但这个数字本身也提出了一个无法被当时的数据回答的问题:那28.8%的沉默者,与愿意回复的人之间,究竟有多大的系统性差异?选择偏倚的问题,从第一份问卷寄出的那一刻起,就已经潜伏在这个队列之中,并将在此后每一项具体发现的方法论争议中浮出水面。护士健康研究的科学遗产,将永远与这个问题共存。下一章将进入这项研究最早引爆公众焦虑的发现:当队列数据开始说话,口服避孕药与乳腺癌之间的关联,究竟呈现出了怎样的图景,而"无显著风险"的结论又是如何在争议中站稳脚跟的。

图表数据

护士健康研究诞生的历史坐标

  1. 1948
    弗雷明汉心脏研究启动

    确立前瞻性队列范式,但以男性数据为主

  2. 1960
    FDA批准首款口服避孕药

    大规模人群用药时代开启,系统性安全数据缺位

  3. 1964
    卫生总监报告确认吸烟危害

    结论主要基于男性数据,女性数据空白被明确标记

  4. 1970
    国会口服避孕药安全性听证会

    女性生殖健康研究成为政治议题

  5. 1972
    美国护士协会建立全国注册护士档案

    为NHS大规模抽样提供制度性基础

  6. 1976
    护士健康研究正式启动

    238,026份问卷寄出,最终回收122,690份,回复率71.2%

1976年基线问卷:护士群体的暴露全貌

曾使用口服避孕药43% · 21%
当前吸烟34.5% · 17%
曾规律吸烟24.3% · 12%
当前使用永久性染发剂25.3% · 12%
已绝经31% · 15%
绝经者中曾用绝经后雌激素46% · 23%

护士健康研究与同期同类研究的规模比较

备注
英国两项研究及沃尔纳特克里克研究的具体人数未在原始文献中给出;NHS以邮件问卷实现规模优势,被明确定位为'同类研究中规模最大的'
studies
名称年份designparticipants
护士健康研究(美国)1976邮件问卷,前瞻性队列122690
英国皇家全科医师学会研究1960年代诊所随访,前瞻性队列
韦西等人长期随访研究(英国)1960年代诊所随访,前瞻性队列
沃尔纳特克里克避孕药研究(美国)1960年代诊所随访,前瞻性队列

本章引用论文