BOOK NOTES
因果推断
郭若城
《因果推断》(郭若城,电子工业出版社)是一本系统介绍因果推断与机器学习交叉领域的教材。全书六章,第一章打基础(两大理论框架及经典识别方法),第二章讲如何用机器学习模型解决因果推断任务,第三至五章反过来讲因果方法如何改善机器学习模型的泛化性、可解释性、公平性以及推荐/搜索系统的偏差问题,第六章给出总结与展望。书中每个方法都给出了数学推导,并穿插餐厅评分影响客流量这一贯通全书的例子。
第一章:因果推断的基础框架
因果关系的定义与概率分布的局限
因果关系的定义:若改变 的取值后重新运行数据生成过程, 的值随之改变,则 存在。这个定义的关键词是干预后重新运行——仅仅观察到 与 同时出现,不构成因果关系的证据。
边缘分布、联合分布、条件分布无法直接定义因果关系——因为这些概率分布只描述数据的统计模式,对" 影响 "与" 和 有共同原因"两种情形一视同仁。机器学习模型本质上是拟合概率分布的工具;拟合能力再强,输出结果仍停留在统计关联层面,无法直接回答因果问题。这是由工具的性质决定的,与模型精度无关。
两种可以严格定义因果关系的框架:结构因果模型(SCM,Judea Pearl 提出)和潜结果框架(Neyman-Rubin 模型)。
结构因果模型(SCM)
因果图(DAG) 是 SCM 的结构描述。有向边 表示 是 的直接原因。三种基本子图决定了变量之间的依赖性:
| 图形 | 名称 | 变量关系 |
|---|---|---|
| 链状图 | 是中介变量,以 为条件后 | |
| 叉状图 | 是混淆变量,以 为条件后 | |
| 倒叉(对撞因子) | 不以 为条件时 ,以 为条件后引入相关性 |
D 分离:以集合 为条件后,若 与 之间所有通路都被阻塞,则 D 分离了 和 。判断通路是否被阻塞取决于通路上每个结点的类型(中介/混淆/对撞)以及它是否在 中。
结构方程组:每个变量对应一个方程 ,左边是结果,右边是原因和噪声。方程方向不可颠倒,因为它描述的是生成方向而非数值关系。
干预与 do 算子:对处理变量 做干预(写作 )意味着切断 的所有父变量对它的影响,将其值强制设为 。干预后的因果图中 没有任何入边。干预分布 一般不等于条件分布 ,差异来自混淆变量 经后门通路 对观测数据造成的混淆偏差。
平均因果效应(ATE): 类似地可定义实验组因果效应(ATT)、对照组因果效应(ATC)、条件因果效应(CATE)。
后门准则:若变量集合 满足(1)以 为条件阻塞所有 到 的后门通路,且(2) 不含 的后代,则可用以下公式识别因果效应:
前门准则:当存在隐藏混淆变量时,如果能找到完全中介处理变量效应的中介集合 ,且 和 各自满足一定条件,则可以通过两步后门调整间接完成对 的识别。
SCM 的主要局限:依赖独立同分布假设,难以处理干扰(一个单位的处理变量影响另一个单位的结果);反事实是个体级别的操作,无法通过对整体做干预来获得,因此反事实因果量不能通过干预实现识别。
潜结果框架(Neyman-Rubin)
潜结果 表示单位 在处理变量取值为 时的结果,无论 实际上是否被分配到 。
因果推断中的缺失数据问题:每个单位只能观测到一个潜结果(事实结果),另一个潜结果(反事实结果)无法直接观测。因此,任何基于两个潜结果之差定义的因果效应都不能从单个单位的数据直接计算。
因果识别的三个基本假设(同时满足即可识别 CATE):
- SUTVA(个体处理稳定性):不同单位的处理变量定义一致;一个单位的结果不受其他单位处理变量的影响(无干扰)。
- 一致性:被观测到的结果就是该单位实际处理变量取值对应的潜结果,即 。
- 强可忽略性:以所有协变量 为条件时,潜结果与处理变量相互独立,且任意 的取值既有可能被分配到实验组也有可能被分配到对照组(重叠条件)。
三个假设同时成立时,,将因果量转化为可从观测数据中估测的统计量。
SCM 与潜结果框架的比较:两者在一定条件下等价(SWIG 框架提供统一化途径)。潜结果框架在已知哪对变量是研究对象时使用更方便,有固定的识别范式;SCM 需要对所有变量间的因果关系建图,但能处理更广泛的问题,如因果发现,以及在不确定哪些变量有因果关系时给出指引。
五种应对隐藏混淆的因果识别方法
当数据中存在无法观测的混淆变量,强可忽略性假设不满足时,需要借助其他条件进行识别。
工具变量(IV):工具变量 满足三个条件:(1)外生(不受其他变量影响);(2)与处理变量 不独立;(3)对结果变量 的影响只经由 传递(排除约束)。在线性 SCM 下,ATE 可由比例估计量 得到。在潜结果框架下,IV 加上单调性假设()可识别局部平均因果效应(LATE),即仅对"服从者"(工具变量能改变其处理变量取值的子群)的平均因果效应。LATE 是局部的,不能外推到非服从者。
断点回归设计(RDD):适用于处理变量由配置变量 与阈值 决定的场景。精确 RDD 假设阈值两侧单位的混淆变量高度相似,估计的因果效应是局部的(只对配置变量接近阈值的样本有效)。带宽越小,局部性越强,但样本量也随之减少。模糊 RDD 中处理变量的分配带有随机性,可将 视为工具变量,用两阶段最小二乘类方法估计 ATE。
双重差分(DiD):适用于动态数据,允许隐藏混淆变量存在,但要求满足加性伪混淆假设:混淆变量对结果的加性影响在干预前后不变。估计量为 ,其中 是干预前结果。识别的是实验组平均因果效应(ATT);ATT 仅描述实际受干预的群体,与全样本 ATE 含义不同。
合成控制:适用于受干预单位数量少(如一个国家、城市)的场景。用多个未受干预的对照单位的加权组合来合成受干预单位的反事实结果,权重通过最小化干预前拟合误差获得。与回归调整相比,合成控制限制权重非负(避免外推)且解更稀疏(可解释性更强),适合干预前时间步较多、单位数量较少的情形。
因果中介效应分析(CMA):将处理变量对结果变量的总效应分解为直接效应和间接效应(通过中介变量传递的部分)。即便数据来自随机实验,也需要序列可忽略假设(处理变量可忽略性 + 中介变量可忽略性)才能识别平均因果中介效应(ACME)。序列可忽略假设比强可忽略假设更强,实践中难以检验。
部分识别与 ATE 上下界:当可忽略性假设不满足时,在较弱的假设下只能得到 ATE 的上下界区间,放弃点估计的精确性,换取对假设更宽松的要求。仅凭潜结果有界 可得宽度为 的 ATE 区间;增加单调状态反馈假设、单调状态选择假设或最优状态选择假设可进一步收紧区间。假设越强,区间越窄,但可信度也越依赖假设的合理性。
第二章:用机器学习解决因果推断
完成因果识别之后,因果效应估测本质上是一个监督学习问题——对条件期望 进行回归或分类。本章讨论如何利用机器学习的拟合能力提升估测精度。
BART(贝叶斯加性回归树)
BART 将多棵浅层回归树的预测加和作为最终输出,对每棵树用贝叶斯先验做正则化(限制树的深度和叶子数量)。输入协变量和处理变量,输出对应潜结果,两组输入分别得到 和 ,差值即为 CATE 估计。
BART 的优势:几乎不需要调超参数;贝叶斯框架直接给出后验置信区间,有助于在决策时评估不确定性;能处理非线性关系。
BART 的风险:当潜结果对特征依赖远强于处理变量时,先验正则化会引入正则化诱导的混淆偏差(RIC)——模型被迫牺牲对结果变量的拟合精度,从而将部分混淆偏差吸收进因果效应估计中。解决方法是将估测的倾向性分数作为额外输入,降低 BART 需要建模的非线性复杂度。
CFRNet(反事实回归网络)
CFRNet 分两个模块:表征学习模块 ,将协变量映射到表征空间;潜结果预测模块,用两个独立的全连接网络分别预测 和 。
理论依据:PEHE(精准因果效应误差)的上界等于事实数据上的拟合误差加上实验组与对照组表征分布之间的积分概率度量(IPM)。最小化 IPM 使两组样本在表征空间分布更接近,降低了反事实估计的误差上界。
两种常用 IPM:
- MMD(最大均值差异):基于再生核希尔伯特空间,可用样本无偏估测。
- W-1 距离(Wasserstein 距离):等价于最优传输问题,CFRNet 中用样本距离矩阵近似计算。
实践争议:若完全最小化 IPM 使两组分布完全重合,则实验组与对照组的协变量分布差异将被消除,与观测性数据中两组分布本来就不同的事实矛盾。训练时两项损失相互制衡,因此不会退化到这种极端情况,但理论上的保证仍然依赖强可忽略性假设。
CEVAE(因果效应变分自编码器)
CEVAE 基于一个预设的因果图:观测协变量 是隐变量 (同时也是混淆变量)的后代, 同时影响 和 。若能从数据中推断出 ,就可以用后门准则识别 CATE。
CEVAE 用 VAE 框架对此建模:编码器从 推断隐变量 的后验,解码器复原 、、 的条件分布。ELBO(证据下界)是训练目标。在解码器端允许对 施加干预,从而估计潜结果。
CEVAE 的核心问题在于:能否从观测性数据中真正学到因果图中设定的隐藏混淆变量 ,理论上存在可识别性条件,但在实践中较难验证。
第三章:因果表征学习(域外泛化)
机器学习模型学习到的伪相关(即特征与标签之间只有相关性但没有因果关系的联系)在训练集分布发生变化时会失效。用因果视角理解这个问题:不同域的数据可以看成由同一个 SCM 在不同干预状态下产生;模型在训练域学到的伪相关在目标域不成立,因为干预改变了这些相关性,但真正的因果关系保持不变。
反事实数据增强
人工标注(众包):通过众包平台让标注者修改样本的关键特征并重新标注,生成与原样本形成对比的反事实样本。优势是能引入人类先验知识;局限是成本随数据量增加。
基于规则的方法:先用匹配方法(如余弦相似度配对)识别哪些词是标签的"可能因"(改变它们后标签发生反转),再用其反义词替换并翻转标签。自动化程度高,但无法保证生成文本的语法连贯性。
基于生成模型的方法:利用预训练语言模型(BERT、T5)等生成与真实分布相符的替换词,再用翻译语言模型做反事实推断,同步更新源序列和目标序列中对应的短语。与基于规则的方法相比,生成的反事实样本更符合原始数据分布,在稀缺资源语言机器翻译任务上效果更稳健。
反事实数据增强的共同局限:方法往往只对特定数据类型或任务有效;需要人类先验知识或大规模预训练生成模型的支持。
归纳偏置方法
这类方法通过修改损失函数或模型结构,让模型主动学习跨域不变的关系,而不依赖数据增强。
不变因果预测(ICP,Peters 2016):假设因果关系在不同环境下保持不变,用统计假设检验遍历特征子集,找到满足"以该子集为预测变量时,残差在不同环境下有相同分布"的子集。该子集包含的变量就是目标变量的可能因。在线性高斯模型下有理论保证;非线性情形下通用性有限,且计算复杂度随特征维度指数增长。
不变风险最小化(IRM,Arjovsky 等):要求学习一个表征 ,使得在所有环境下,基于该表征的最优分类器参数相同。损失函数在经验风险之外加入一个惩罚项,衡量不同环境之间的梯度差异。IRM 在多个环境数据充足时有理论保证;当环境数量较少或环境间差异较小时,惩罚项的约束力不足,可能退化为普通经验风险最小化。
第四章:可解释性与公平性
基于因果的可解释性
基于干预的可解释性:通过对神经网络内部组件(如神经元、注意力头)进行干预,量化这些组件对输出的因果影响;相关性分析无法区分某个神经元激活究竟影响了预测,还是仅与预测结果伴随出现。代表方法包括:用 do 算子精确测量特定神经元对预测结果的因果归因;通过中介分析将某一层对最终预测的影响分解为直接效应和经由其他层传递的间接效应。
基于反事实的可解释性:给定一个样本 和模型预测 ,找一个反事实样本 使得 (目标输出),且 与 尽可能接近。反事实解释回答"如果某些特征发生怎样的变化,预测结果会改变"。
一个高质量的反事实解释需满足多个约束:(1)预测与目标输出接近;(2)与原样本的特征差异小;(3)修改的特征数量少(稀疏);(4)生成的反事实样本符合真实数据分布(可理解性);(5)提供多样化的解释。多目标优化(如 NSGA-II)可以同时处理这些约束,但可能产生大量解("罗生门效应"),如何向用户呈现仍是实践难题。
公平性
机器学习的不公平性来源可分为四类:(1)形式化过程中遗失背景信息或引入代理标签;(2)数据偏差(输入数据有偏、历史歧视嵌入标签、少数群体样本不足);(3)自动化偏见和算法偏见;(4)因果偏差——误将相关关系当作因果关系,或未正确处理混淆变量。
基于相关性的公平性定义(人口统计均等、机会均等、校准性等)从群体级别约束模型的输出分布。这类定义在多数情形下互相不相容,不能同时满足。
反事实公平性:要求机器学习模型对每个个体的预测在其反事实(即敏感属性改变后的对应样本)上保持相同。用因果图表示:若将所有以敏感属性为起点、以预测结果为终点的有向路径移除后,模型对原样本和反事实样本的预测相同,则该模型满足反事实公平性。反事实公平性是个体级别的,比群体级别的定义更细粒度,但实现时需要一个可信的因果图,且反事实样本本身无法从数据中直接观测。
第五章:推荐系统与学习排序
选择性偏差(显式反馈推荐系统)
用户只对他们选择交互的物品打分,而选择本身受用户偏好的影响——喜欢的物品更可能被打分。这导致观测到的评分样本在用户-物品空间中分布不均匀,用朴素平均估计推荐系统误差会有偏差。
IPS 评价器(逆倾向加权):给每个观测到的评分乘以倾向性分数 的倒数,重新加权后的估计器对推荐系统在总体上的误差是无偏的。当 接近 0 时方差可能很大;SNIPS 评价器对 IPS 做归一化,牺牲部分无偏性换取方差的降低。实践中需要用机器学习模型(朴素贝叶斯或逻辑回归)估测倾向性分数,估测误差会传入 IPS/SNIPS 评价器造成偏差。
基于 IPS/SNIPS 的经验风险最小化可以训练更无偏的推荐系统模型,在 Coat Shopping 和 Yahoo! R3 等带有随机测试集的数据集上验证有效。
曝光偏差(隐式反馈推荐系统)
在隐式反馈中,未发生交互的情形既可能是用户不喜欢,也可能是物品从未被曝光给用户。曝光概率受前版本推荐模型、用户社交背景和物品流行性等多种因素影响。用传统的全样本平均(AOA)评价器计算 DCG 等指标时,高曝光概率的物品被估测得更好,低曝光概率的物品即便与用户高度相关也会被低估。IPS 方法同样可用于修正曝光偏差。
位置偏差与反事实学习排序
在搜索/排序场景中,用户点击行为同时受文档相关性和文档在结果列表中位置的影响——位置越靠前,点击概率越高,与文档是否真正相关无关。直接用点击数据训练学习排序模型会过拟合位置偏差。
处理方法:用一个因果图将观测到的点击分解为文档相关性(真正想学习的目标)和位置偏差(混淆因素)的乘积。通过干预实验(随机调换文档位置)可估测位置偏差的倾向性分数,进而对训练数据做 IPS 加权,得到对相关性的无偏估计。在位置偏差较大的场景中(如搜索首页),反事实学习排序比直接训练的模型有显著改善。
可迁移知识
识别 vs. 估测分离:因果推断由两个步骤组成:用理论框架完成因果识别(将因果量转化为统计量),再用任意回归/分类模型完成估测。这两步可以分开处理。实践中若只聚焦估测方法而跳过因果识别,得到的结论对混淆偏差没有任何防护。
假设的可检验性:因果推断中几乎所有的识别假设(可忽略性、SUTVA、工具变量的排除约束、IRM 的环境充分性等)都不能单纯从样本中自动检验,必须依赖领域先验知识。预测建模可以在测试集上验证效果,因果假设的合理性却只能通过领域知识论证——这是二者的根本区别。在使用任何识别方法前,首先需要论证假设的合理性。
偏差来源与修正的对应关系:推荐/搜索场景中的选择偏差、曝光偏差和位置偏差产生的原因各不相同(用户自选择、曝光机制、展示位置),修正思路都可以归结为:用因果图刻画偏差的来源,再设计倾向性分数模型对其加权修正。偏差来源不明确时盲目套用 IPS 不会有效果,甚至会放大误差。
因果方法对分布偏移的适应性:基于相关性的模型在训练集和测试集分布不同时表现下降,根本原因是学到的统计规律在分布变化后不再成立。基于不变机制(IRM、ICP)的方法试图学习跨域稳定的因果特征;反事实数据增强通过主动构造不同分布下的样本向模型展示分布变化的样式。两类方法的有效性都依赖于"不同环境数据来自同一 SCM 的不同干预"这一假设,若实际的分布偏移不符合这一假设,效果有限。
SCM 与潜结果框架的选用逻辑:已明确研究对象(哪个变量是处理变量、哪个是结果变量),且有理由相信所有混淆变量都可观测或可用某种策略处理时,优先选用潜结果框架,操作更简洁。不确定哪些变量之间有因果关系,或需要分析多个变量之间的完整因果结构时,从 SCM 入手。SCM 需要更多先验知识来构建因果图,而因果发现算法从观测性数据中推断因果图的结果往往存在不一致,最终仍需领域专家验证。
展望
书中提及的已知研究空白:因果强化学习(如何在马尔可夫决策过程中处理环境分布变化)、适应性实验(在实验进行过程中动态调整处理概率以同时实现因果效应估测和样本结果最优化)、大规模预训练语言模型的因果可解释性与公平性。核心挑战不在于方法本身的精度,而在于如何找到合适的假设与真实场景之间的对应关系,以及如何设计可信的识别策略。