BOOK NOTES
为什么
朱迪亚·珀尔,达纳·麦肯齐
一、因果阶梯:三层查询能力
珀尔将因果推理能力分为三个层级,构成"因果阶梯"。
第一层:关联(Association) 只能回答"如果我看到X,Y的概率是多少?"。条件概率 P(Y|X) 处于这一层。当前几乎所有机器学习系统,包括深度神经网络,都停留在这一层。猫头鹰捕鼠、下棋程序赢棋——都是在做关联学习。
第二层:干预(Intervention) 回答"如果我做(do)X,Y会怎样?"。这是政策、治疗和决策的领域。符号为 P(Y|do(X)),与 P(Y|X) 根本不同。看到气压计下降会提高暴风雨概率,强行拨低气压计不会。这一区别在传统统计学中完全缺席。
第三层:反事实(Counterfactual) 回答"如果当时选择了X′而非X,Y会是什么?"。法律上的"假若没有"检验(but-for causation)、个人的遗憾与归因,都在这一层。反事实能力让人类区别于其他物种——刻画半人半狮的旧石器时代雕像,就是想象从未存在之物的能力的体现。
三层之间存在严格的信息壁垒:仅凭第一层数据无法回答第二层问题,仅凭第二层(干预实验)无法回答第三层问题。每一层都需要额外的模型假设才能跨越。
二、统计学对因果的驱逐
弗朗西斯·高尔顿从研究遗传因果出发,发现了"向均值回归",继而创造了"相关"(correlation)概念,最终放弃了寻找因果解释。他的学生卡尔·皮尔逊将这一放弃彻底化,宣称"因果只是相关的极端情况",并建立起以相关系数为核心的统计学体系,把"原因"这个词从统计学词典中抹去。
这场驱逐在20世纪上半叶形成统治性范式。统计学课本标准咒语"相关不等于因果",但从不告诉学生因果是什么、怎么表达。发表在统计期刊上的论文一旦出现"cause"即遭拒稿。
遗传学家休厄尔·赖特(Sewall Wright)在1920年代发明了路径图(path diagrams),第一次建立了因果系数(path coefficients)与可观测相关系数之间的代数桥梁。这是历史上第一次证明"某些相关确实蕴含因果"。然而统计学界以享利·奈尔斯为代表,以"混淆因果与相关"为由,激烈驳斥了这一工作,此后四十年路径分析几乎无人问津。直到1960年代社会科学家重新发现它,才开始缓慢传播。
皮尔逊统治下的禁忌持续了半个多世纪,造成的代价之一就是1950–1964年的吸烟-肺癌辩论:没有因果语言,没有明确的因果推断工具,科学界无法就"吸烟导致肺癌"给出令人信服的答案,数百万人的生命因此受到影响。
三、因果图:用图表达知识
因果图(causal diagram)是珀尔整套方法论的核心工具:有向无环图,节点是变量,有向箭头表示"直接因果影响的可能性"。箭头表示 X 会影响 Y(X 是 Y 的"父节点");缺箭头表示 X 对 Y 无直接影响,这通常是更重要的假设。
构建原则:每个变量只需问"这个变量在决定自身取值之前,会'听从'哪些变量?"——这个比喻直接对应了箭头的方向。
三种基本连接结构:
-
链式(Chain):A → B → C B 是中介变量(mediator)。一旦已知 B 的值,A 与 C 条件独立(B "屏蔽" 了 A 对 C 的信息传递)。例:火灾 → 烟雾 → 报警器。
-
分叉(Fork):A ← B → C B 是共同原因(common cause),也称混淆变量(confounder)。A 与 C 相关,但无直接因果联系。控制 B 后,A 和 C 条件独立。例:冰淇淋销售量与犯罪率的相关,来自天气这个共同原因。
-
碰撞(Collider):A → B ← C A 和 C 本来独立。但一旦条件化 B(或 B 的后代变量),A 和 C 之间出现虚假关联("解释消除"效应)。例:好莱坞演员中,颜值与才华呈负相关——因为"成为明星"是二者共同导致的碰撞变量,条件化在明星这一群体就引入了偏差。
这三种结构是所有复杂因果图的积木。
四、do 算子与因果效应的定义
统计学只有条件概率 P(Y|X):在观察到 X 的人群中,Y 的分布。这度量关联,不度量因果。
珀尔引入 do 算子:P(Y|do(X=x)) 表示"强制将 X 设为 x 后,Y 的分布"。do 操作在图上的含义是:删除所有射入 X 的箭头,将 X 设为指定值。这模拟了随机对照试验(RCT)的逻辑——让 X 的取值脱离所有混淆变量的约束。
P(Y|do(X)) 与 P(Y|X) 的差异就是混淆(confounding)的数学定义:当且仅当二者不相等时,存在混淆。
随机对照试验(RCT)为什么有效:随机分配让处理变量摆脱所有混淆变量的控制——图上等价于删除射入处理变量的所有箭头。RCT 的价值在于此,理解了这一点,就能找到其他达到同等效果的方法。
五、后门准则与去混淆
后门路径(back-door path):从处理变量 X 出发,沿箭头反向通往结果变量 Y 的任何路径。这类路径带来的是虚假关联,需要被阻断。
后门准则:变量集合 Z 满足后门准则,当且仅当:
- Z 阻断了 X 到 Y 的所有后门路径;
- Z 中没有 X 的后代变量。
满足后门准则的 Z,可以用于去混淆,公式为:
这是一个加权平均:在每层 Z 中估计处理效应,然后按 Z 在总体中的比例加权求和。
过度控制的错误:常见误区是"控制一切可测变量"。但控制中介变量会截断处理到结果的因果路径;控制碰撞变量(或其后代)会打开本已关闭的伪路径。后门准则能精确指定应该和不应该控制哪些变量。
游戏练习(书中用5个例子说明):
- 没有后门路径时,不需要控制任何变量;
- 碰撞变量天然阻断路径,条件化它反而会破坏阻断;
- M 形偏差(M-bias)中,看似"无害的前处理变量"实为碰撞变量,条件化它会引入偏差。
六、前门准则:绕过不可观测的混淆
当存在不可观测的混淆变量时,后门调整失效。前门准则提供了另一条路。
适用条件(以吸烟→肺癌为例):
- 存在完整中介链:吸烟 → 焦油沉积 → 肺癌;
- 中介变量(焦油)不受混淆变量("吸烟基因")直接影响;
- 所有吸烟到肺癌的效应都经过这条路径。
前门调整公式:
其逻辑:先用观察数据估计 X 对中介 M 的(无混淆的)效应,再用调整了 X 的后门来估计 M 对 Y 的效应,最后合并。关键:整个过程不需要观察那个混淆变量的数据。这是统计史上第一个能在完全未观测混淆变量情况下估计因果效应的方法。
Glynn 和 Kashin 2014年将前门准则应用于就业培训项目(JTPA 研究),发现它比后门调整更接近真实 RCT 结果——因为它能控制"积极性"这一不可测混淆变量。
七、工具变量:随机化的代理品
工具变量(Z)需满足三个条件:
- Z 与处理变量 X 相关;
- Z 不受混淆变量影响(即 Z 对 X 的影响路径中无混淆);
- Z 对结果 Y 的影响完全通过 X 传递(无直接效应)。
在线性假设下,X 对 Y 的因果效应 = Z 对 Y 的回归系数 ÷ Z 对 X 的回归系数。
约翰·斯诺(John Snow)1854年的霍乱调查是工具变量思想最早的应用:水公司(南华克公司 vs 兰贝斯公司)充当了供水纯净度的工具变量。两家公司向同一街道的不同住户供水,居民没有选择权,因此水公司与霍乱的关联纯属水质差异所致,与居民贫富等混淆因素无关。
孟德尔随机化(Mendelian Randomization):基因在受精时随机分配,天然构成工具变量。2012年一项关于"好胆固醇"(HDL)的基因组研究发现,HDL 的高低对心脏病发作风险几乎没有影响,而 LDL(坏胆固醇)有非常显著的影响。孟德尔随机化是现代流行病学的重要工具,但需注意它度量的是终生水平的效应,而非短期干预的效应。
八、do 演算的三条规则
珀尔提出的 do 演算由三条规则组成,用于将含 do 算子的表达式转化为不含 do 算子的表达式(即可从观察数据估计的量):
- 规则 1:在不相关变量的条件下,观察不改变概率分布;
- 规则 2:当满足后门准则时,干预等同于观察(do 可替换为条件化);
- 规则 3:当处理变量到结果没有因果路径时,干预与否无关紧要。
珀尔证明这三条规则完备:如果一个因果效应可以用观察数据估计,三条规则的组合一定能找到估计方法;否则,无论怎样的统计技巧都无法仅凭观察数据回答这个问题,必须做实验。Ilya Shpitser 后来将其自动化为算法。
九、反事实与结构因果模型
反事实的形式化:Yx(u) 表示"如果个体 u 的处理变量 X 被设为 x,结果 Y 的取值"。这是对同一个体在不同假想条件下的比较,有别于不同个体之间的横向比较。
**结构因果模型(SCM)**三步推断反事实:
- 溯因(Abduction):利用该个体的已知数据,推断其特异性因子 U(个人特质)的值;
- 行动(Action):在模型中执行 do 操作,将 X 设为反事实假设值,删除射入 X 的所有箭头;
- 预测(Prediction):在修改后的模型加上已知的 U 值,计算 Y 的新值。
与 Rubin 潜在结果框架的区别:Rubin 的框架将因果推断视为缺失数据问题,依赖"可忽略性(ignorability)"假设。但这一假设在没有因果图的情况下无法被检验、也难以被评估其合理性。SCM 明确要求画出因果图,可忽略性由图中的后门准则自动验证。
十、必要原因与充分原因
针对具体事件(而非总体效应),区分两类因果归因:
必要性概率 PN(Probability of Necessity): "已知 X=1 且 Y=1,如果 X 变为 0,Y 会不发生的概率。"——法律中"假若没有"检验的数学形式。若 PN > 0.5,原告在民事诉讼中通常可以胜诉。
充分性概率 PS(Probability of Sufficiency): "在 X=0、Y=0 的情况下,如果 X 变为 1,Y 会发生的概率。"——近似法律中"近因"(proximate cause)的检验。
气候变化应用:Myles Allen 的"可归因风险比例"(FAR)在两个温和假设(无混淆、单调性)下等价于 PN。2003年欧洲热浪的研究得出结论:有 90% 的概率,人为气候变化是该热浪的必要原因(PN=0.9),但单一年份内作为充分原因的概率极低(PS≈0.007);在 200 年的时间窗口内,PS 则升至约 80%。这两个数字回答了不同类型的政策问题。
十一、辛普森悖论与碰撞偏差
辛普森悖论的因果解释:统计数字在分层后与合并后出现反转,原因有两种:
- 分层变量是混淆变量(fork 结构):应当分层,看各层效应;
- 分层变量是中介变量(chain 结构):不应分层,看合并效应。
同样的数字,在不同的因果结构下,答案完全相反。数据本身无法判断,只有因果图能给出答案。"萨维奇必然原则"的正确版本需要加上一个因果前提:行动不改变分组的概率。
出生体重悖论(Yerushalmy 悖论):低出生体重的婴儿中,吸烟母亲的孩子存活率反而更高——这是典型的碰撞偏差。出生体重是吸烟和严重出生缺陷(另一个低体重原因)的碰撞变量;仅看低出生体重婴儿时,相当于在条件化碰撞变量,打开了吸烟和出生缺陷之间的虚假路径。
蒙蒂霍尔问题:主持人开门的选择行为(被迫排除有车的门)使"选手选的门"和"车的位置"在给定主持人开哪扇门的条件下产生关联——主持人开的那扇门是碰撞变量,条件化它引入了关联。在"假冒交易"(随机开门)规则下,主持人开的门没有碰撞变量的结构,换门无优势。
十二、贝叶斯规则与贝叶斯网络
贝叶斯规则的基本形式:,允许从正向概率(已知原因算效果概率)推导反向概率(已知效果算原因概率)。珀尔将这一机制推广为**置信传播(belief propagation)**算法,在一个网络中,节点同时向父节点传递"似然比",向子节点传递"条件概率",反复迭代直至收敛。
贝叶斯网络与因果图的区别:贝叶斯网络中的箭头只代表概率依赖方向,不一定是因果方向;因果图中每条箭头都必须代表真实的因果影响可能性。从链式和分叉结构,二者数据行为相同,无法靠数据区分——必须靠科学知识。只有因果图能回答 do 算子问题,贝叶斯网络不能。
d-分离(d-separation):判断两组变量在给定第三组变量条件下是否条件独立的图论准则,由 Verma 证明。一旦掌握三种基本结构(链、分叉、碰撞)在被条件化时的信息阻断和开通规律,就能对任意复杂因果图读出所有独立性。
十三、中介分析:直接效应与间接效应
为什么中介重要:同样是"柑橘防坏血病",不知道中介(维生素 C)时,换成酸性替代品而导致脐橙告罄、坏血病重现(斯科特南极探险队的悲剧)。知道中介,才能在情境改变时找到等效替代。
两种直接效应:
- 受控直接效应 CDE(m):将中介 M 固定在某一值 m,处理 X 改变时 Y 的变化。对不同的 m 值,CDE 可能不同。
- 自然直接效应 NDE:让中介保持其在处理为 0 时的"自然"值,处理 X 改变时 Y 的变化——这对应法律定义中"其他条件不变"的歧视检验。
自然间接效应 NIE:处理 X 保持为 0,但让中介 M 取处理为 1 时的值,Y 的变化。这是一个双重反事实,无法在任何单一实验中直接观察到。
中介公式(Mediation Formula):在满足无混淆假设时,NIE 可以从第一层数据(观察数据)估计:
这一公式不假设线性关系,适用于有交互作用(interaction)的非线性模型。在线性模型中退化为"路径系数之积"的经典公式。
Baron-Kenny 方法的局限:1986年的 Baron-Kenny 方法基于线性回归,无法检测处理与中介的交互作用,在非线性情形下会给出错误结果。中介公式提供了更一般的框架。
十四、应用案例概览
"全民代数"教育改革(芝加哥,1997):直接效应正(+2.7分),但班级环境恶化带来的间接效应负(-2.3分),合计近零。中介分析解释了改革为何看似失败,也预测了后续"双倍代数"改革(修复课堂环境)为何成功。
吸烟基因(rs16969968,Mr. Big):Fischer 关于混淆基因的假说在2008年部分得到证实——确实存在吸烟基因,但其效应是吸烟 × 基因的交互作用(仅在吸烟者中明显),而非纯粹混淆。吸烟基因对吸烟行为的间接效应(仅增加一支/天)在临床上不显著,自然直接效应才是主要机制。
止血带与手术存活(伊拉克/阿富汗战争):Kragh 的数据显示止血带与存活无关,原因是研究对象仅是活着到医院的士兵——这相当于在碰撞变量(医前存活)上条件化,阻断了止血带效应的主要路径,只测量了直接效应(接近零),而真正重要的间接效应(让伤者撑到医院)无法被观察到。
十五、可迁移性与大数据
可迁移性(Transportability):来自不同环境(洛杉矶、波士顿等)的研究,能否合并、推广到目标人群(阿肯色州)?这取决于两个环境因果图的差异。差异所在节点用"选择指示变量 S"表示,do 演算提供了判断是否可迁移的完备准则。
选择偏差的恢复:与可迁移性类似,但箭头方向相反(是选入研究的原因影响 S)。同样可以通过因果图和 do 演算确定是否能从偏样本恢复无偏估计,以及需要额外测量哪些变量。
大数据本身无法回答因果问题,但它提供了:(a)发现值得研究的关联模式;(b)在已有因果图和估计量(estimand)下,提高统计估计精度;(c)跨研究融合所需的辅助变量数据。
十六、强人工智能与因果推理
深度学习的边界:深度学习系统(包括 AlphaGo)停留在因果阶梯第一层,依靠大量数据拟合关联函数。它们无法回答干预问题("如果我们调高价格会怎样?"),因为这需要因果模型;更无法回答反事实问题("如果当时不那样做会怎样?")。这一局限在象棋、围棋等规则完备的封闭世界里不妨碍,但在医学、经济、教育等现实领域里是根本性缺陷。
道德机器需要反事实:能说"我不应该这样做"的机器,必须能计算 P(Y_{X=x'} | X=x)——已知自己做了 x,问做 x' 的结果会如何。珀尔把这一表达式等同于"处理组的处理效应"(ETT),并已有完备的估计算法。
自由意志的功能性解释:决定论与自由意志的表面矛盾,在于混淆了神经激活的描述层次和认知自我意识的层次。"自由意志的幻觉"在进化上的功能是:通过对意图的语言化,让行为主体能接受"你应该这样做"而非"在情形 A 下执行动作序列 B1-B2-B3"这样的简短指令,并据此更新内部策略权重。让机器人拥有这一幻觉,可以改善人机沟通,机器人也能在团队协作中与队友交流意图。
十七、统一视角:推断引擎的结构
珀尔在序言中提出了一个"推断引擎"蓝图,统一了以上所有内容:
- 假设(Assumptions) → 因果图(隐性知识的显式化)
- 查询(Query) → 用 do 算子或反事实符号精确表达想回答的问题
- 数据(Data) → 观察值
- 引擎输出:
- 是否可识别:在给定的因果图和查询下,是否存在任何数据量都能回答的答案?
- 估计量(Estimand):如果可识别,给出从数据计算答案的具体公式;
- 估计(Estimate):代入实际数据,给出带不确定性的数值答案。
这个框架的关键:估计量由因果图决定,与数据无关;数据只在最后阶段介入。因此,无论从哪个符合定性图结构的数据集出发,同一个估计量都给出适用的计算方法。
附:核心术语对照
| 中文 | 英文 | 说明 |
|---|---|---|
| 因果阶梯 | Ladder of Causation | 三层:关联、干预、反事实 |
| do 算子 | do-operator | P(Y|do(X)) 表示强制干预 |
| 后门准则 | Back-door criterion | 确定去混淆的变量集合 |
| 前门准则 | Front-door criterion | 通过中介估计不可测混淆下的因果效应 |
| 工具变量 | Instrumental variable | 与处理相关但不直接影响结果的变量 |
| do 演算 | do-calculus | 三条操作规则,完备处理 do 表达式 |
| 碰撞变量 | Collider | 有两个以上箭头汇入的变量 |
| 混淆变量 | Confounder | 处理与结果的共同原因 |
| 中介变量 | Mediator | 传递处理效应到结果的变量 |
| 结构因果模型 | Structural Causal Model (SCM) | 含反事实推理能力的因果模型 |
| 必要性概率 | Probability of Necessity (PN) | "假若没有"检验的概率化 |
| 充分性概率 | Probability of Sufficiency (PS) | 近因检验的概率化 |
| 自然直接效应 | Natural Direct Effect (NDE) | 绕过中介的直接效应,需反事实定义 |
| 自然间接效应 | Natural Indirect Effect (NIE) | 经由中介的间接效应,需反事实定义 |
| 可迁移性 | Transportability | 在不同总体间迁移研究结论的条件 |