BOOK NOTES

女士品茶

Name: 女士品茶
Author: 大卫·萨尔斯伯格

大卫·萨尔斯伯格

《女士品茶》是美国生物统计学家大卫·萨尔斯伯格写的一部20世纪统计学史，以人物传记方式叙述了统计革命如何用一百年时间取代机械式宇宙观，成为几乎所有现代科学的底层框架。全书29章，每章围绕一位或几位统计学家的工作与生平展开，将数学进展嵌入两次世界大战、苏联大清洗、法西斯兴起等历史背景，展示了抽象数学如何在政治动荡、学术争斗、战时研究中演变至今。书中几乎不出现数学公式，作者通过具体例子和人物故事，让读者感受每一个统计观念背后的认识论分量。

书名来自一个真实的实验设定。20世纪20年代末，剑桥一个下午茶聚会上，一位女士坚称把牛奶倒进茶里与把茶倒进牛奶里味道不同。那个留着短胡须、戴厚眼镜的先生——罗纳德·费歇尔——没有嗤之以鼻，他立刻开始设计实验：给她品尝一系列随机排列的茶杯，计算她猜对的概率，由此判断她是否真有辨别能力。这个小场景包含了现代假设检验的全部骨架。

统计革命的背景

19世纪的主流科学观认为宇宙按确定性规律运转。测量与预测之间的偏差被解释为"误差"，仪器越精确，误差应当越少——这是拉普拉斯那个时代的信条。然而实践的结果完全相反：测量越精确，偏差越多。农业、生物、心理等领域的数据明确拒绝了"误差终将消失"的预期。

这迫使科学家面对一个选择：坚持认为自然规律是确定的，所有偏差都是外部噪声；或者接受自然本身具有内在随机性，真正可以研究的对象是数据的概率分布，而非某个确定值。20世纪的统计革命是后一种立场的系统展开。

统计学的三个基本概念需要区分：

随机性（randomness）：具有可以用数学描述的结构，即概率分布
概率（probability）：对随机性施加限制，赋予有限的预测能力
统计（statistics）：用概率分布描述实际数据，并从数据中估计分布的参数

皮尔逊：参数与分布

K·皮尔逊（1857—1936）的根本贡献是改变了"科学的对象是什么"这一问题的答案。

传统科学处理"真实的事物"——行星轨道、血液流动路径、化学元素。皮尔逊主张，这些可观测的现象只是随机性的映像，科学真正的研究对象是控制这些映像的概率分布。单次测量值本身构不成目标，测量值散布的数学形式——分布函数——才是研究对象。

他提出了"偏斜分布"体系，用四个参数描述一个分布：

参数	含义
平均数（mean）	测量值分布的中心位置
标准差（standard deviation）	测量值偏离平均值的程度
对称性（skewness）	分布向哪侧偏斜
峰度（kurtosis）	极端值偏离中心的远近

这四个参数是"几乎可以测量"（para-metron，参数一词的词源）的东西：本身无法直接观测，只能从数据中估计。科学研究从收集"真实事件"转向估计"控制随机性的参数"。

皮尔逊还发明了拟合优度检验（χ²检验），检验一组数据是否符合某个理论分布，这是后来假设检验的先驱。他的方法与费歇尔之间有一场贯穿数十年的争论：皮尔逊将统计分布视为对搜集数据集合的真实描述；费歇尔认为真实分布只是抽象数学公式，所有数据只能用于估计参数，估计本身有误差。这一哲学分歧决定了他们后来在估计方法和假设检验上的全部对立。

戈塞特：小样本问题

威廉·S·戈塞特（1876—1937）在吉尼斯啤酒公司工作，因公司禁止员工发表论文，他以笔名"学生"（Student）写作。核心问题来自实际：当样本量只有十几个时，如何做统计推断？

皮尔逊的方法假设样本量足够大，参数估计的误差可以忽略。戈塞特发现，在小样本情况下，平均数估计值除以标准差估计值所得比率，遵循一个与正态分布不同的分布——即"学生t检验"。

t检验的关键价值在于它提供了一个推断的"停止点"：分析者无需无限递推（先估计参数，再估计参数的参数，再估计那些参数的参数……），可以在第一步停下来，直接使用这个比率的已知分布进行检验。弗雷德里克·莫斯特勒和约翰·图基后来明确指出，没有这个停止点，统计分析在逻辑上就无法落地。

戈塞特是K·皮尔逊与费歇尔两个敌对阵营之间的中间人，他与两人都保持友谊，充当调解者，这在当时同行看来是一项艰难的平衡。

费歇尔：实验设计与极大似然

R·A·费歇尔（1890—1962）的工作起点是一个非常具体的处境：1919年到罗森斯特农业实验站，面对90年积累的混乱数据。他发现了三个根本性问题：

不同年份的气候影响远大于肥料差异，但二者混合（confounded）于同一数据集中，无法分离
90年的实验没有控制组，处理效应与其他变量的效应无法区分
不同实验站互相争论的"肥力指数"，化简后本质上是同一代数公式的不同写法，20年的论战是无效争论

随机化是费歇尔提出的核心解决方案。土壤肥力梯度的方向无法事先知道，将处理方式随机分配给各个地块，可以在统计平均意义上抵消任何方向的梯度影响。他在等待讨论者争论"肥力梯度究竟朝哪个方向"时，烟斗不离口，最后说了一句："用随机的方法。"

方差分析（ANOVA）是具体工具：将总变异分解为不同来源（处理效果、地块差异、随机误差），分别估计各部分参数，判断某处理效果是否显著超出随机误差的预期范围。这一思路在第一次被费歇尔写出时，公式仅适用于特定情形，一般化的数学推导对他而言太显而易见，他没有写出——这正是为什么同时代人经常看不懂他在做什么。

极大似然估计（MLE）是他给出的参数估计标准方法：在所有可能的参数值中，找到使观测数据出现概率最大的那个。费歇尔证明MLE具有三种优良性质：

准则	含义
一致性（consistency）	数据越多，估计值越接近真值
无偏性（unbiasedness）	反复估计的平均结果接近真值
有效性（efficiency）	在满足"正则性条件"时，是所有估计量中方差最小的

"无偏性"因为名字的价值色彩，在实践中被过度强调。美国食品药品管理局等机构规定使用"避免有偏"的方法，但有些有偏估计量在一致性和有效性上表现更好——费歇尔本人指出，净化城市供水的氯浓度测定标准方法，依赖的就是一个有偏但一致且有效的统计量。

P值与显著性检验是费歇尔应用最广、误用也最多的工具。P值的定义是：在零假设为真的条件下，出现当前观测结果（或更极端结果）的概率。费歇尔本人的用法是：P值很小时（通常<0.01）断言某种效果已显现；P值很大时（通常>0.2）认为现有数据不足以判断；介于中间时，讨论如何设计下一个实验。他从未将P值解释为"犯错误的概率"，也不认为单次显著结果等于发现。

奈曼与皮尔逊：假设检验的结构化

耶日·奈曼（1894—1981）和E·皮尔逊（K·皮尔逊之子）从1928年开始合作，系统重建假设检验理论。两人书信往来充分展现了数学合作的过程：E·皮尔逊提出问题，奈曼将模糊的想法提纯为严格的数学结构。

奈曼的核心贡献是指出：没有备择假设的假设检验没有意义。 仅仅询问"数据是否服从正态分布"不够，必须同时指定数据可能服从的其他分布。备择假设集合的定义决定选用哪种检验，也决定检验的效力（power）——在备择假设为真时，检验正确拒绝零假设的概率。效力高的检验优于效力低的检验。

奈曼引入概率的频数定义（源自维恩）：概率是事件从长期来看发生的频率。据此，一个固定P值（如0.05）的含义是：从长期来看，分析者有5%的机会错误拒绝正确的零假设。这一数字描述的是分析程序的长期表现，与某次具体实验结论是否准确无关。

置信区间是奈曼的另一项贡献。95%置信区间的正确解释：如果反复使用这个方法构建区间，从长期来看有95%的区间会包含参数真值。大会主席鲍利在1934年第一次听到这个方法时立即指出：这里的"置信"算不算"置信诡计"？他看穿了奈曼绕过了概率与现实对应关系这一根本问题——对固定的参数值，它要么在区间内，要么不在，95%这个数字说的只是程序，和这次区间能否包含参数真值无关。

费歇尔始终反对奈曼的框架，认为他将科学研究混同于工业质量控制（接受/拒绝批次）。这一分歧涉及统计推断的根本性质，至今未有定论。

贝叶斯方法：逆向推理

托马斯·贝叶斯（18世纪）发现，条件概率公式具有内在对称性：可以"以后发生的事件为条件"反推"先前发生的事件"的概率。这看似荒诞——已知病人患肺癌，再计算他是吸烟者的概率——但在流行病学追溯研究中，这恰好是唯一可行的分析方向。

20世纪统计学家长期回避"逆概率"，因为将参数视为随机的似乎违背了皮尔逊革命的基础：参数是固定的，只是未知的。到20世纪60年代，两条路线分别推动贝叶斯方法的复兴：

贝叶斯层次模型：当数据分布的参数本身也有参数（超参数），超参数又有参数（超超参数）时，可以用贝叶斯定理逐层估计。莫斯特勒和华莱士用这种方法判定《联邦主义论文集》中有争议文章的作者（12篇全部判定为麦迪逊所作），是教科书级的应用案例。

个人概率：萨维奇和德费奈蒂主张，概率是个人对不确定性的主观度量，每个人有自己独特的先验概率。通过贝叶斯定理更新后，接触足够数据的理性个体会趋于相同的后验概率。凯恩斯则认为，概率是特定文化背景下受教育者共享的信念程度，不必是精确数字，部分排序就足以支持决策。

卡内曼和特韦尔斯基的心理学研究（20世纪70—80年代）表明，人类实际上不符合萨维奇的一致性原则：对50:50和"几乎确定"有稳定认知，但对90%与75%等具体数值的区分并不一致。苏佩斯据此提出，与人类感知相符的个人概率体系只有五个离散等级（必然为真/可能为真/各半/可能为假/必然为假），这大幅削减了标准统计方法在日常决策中的适用场景。

柯尔莫哥洛夫：数学基础与随机过程

安德烈·柯尔莫哥洛夫（1903—1987）解决了统计革命中两个最紧迫的数学问题。

概率的公理化：他发现，对事件集合求概率，本质上等同于对不规则形状求面积（测度论）。以此为基础，他在1933年给出概率论的公理体系，使概率计算从"聪明的计数技巧"升格为有严密数学基础的理论。此后所有概率定理都可在这组公理内被证明或证伪。

随机过程理论：费歇尔等人的统计方法假设数据是独立的。但实际数据往往前后相关——小麦产量与前几年的降雨量相关，心跳节律与前一刻相关。柯尔莫哥洛夫将这类相互关联的时间序列称为随机过程（stochastic process），建立了分析它们的数学工具。他的工作使人们能够：用加州海浪数据定位印度洋风暴；区分地震与地下核爆；分析医学中的心律模式。

苏联统计学的失败是本书嵌入的一个对比案例。斯大林时代，统计学被界定为"社会科学"，随机变量被翻译为"偶发数量"，在计划经济的意识形态下被视为对决定论的冒犯。数理统计的应用研究被压制，柯尔莫哥洛夫等人只能以"纯数学家"身份保护自己的工作。苏联农业、工业的统计数据因此长期虚假，中央计划者无法获得真实信息，这是其经济体系失灵的原因之一。

中心极限定理与非参数方法

中心极限定理在20世纪30年代初被林德伯格和利维严格证明：无论原始数据服从何种分布，只要满足一定条件，大量独立随机变量之和的分布趋近于正态分布。这是大量统计方法使用正态近似的理论依据。霍夫丁进一步发展了U统计量的概念：属于U统计量的检验统计量满足林德伯格-利维条件，从而为新统计量的正态近似提供了标准化的验证路径，使研究者无需为每个新统计量专门证明这一条件。

非参数方法绕开了概率分布参数的限制。威尔科克森在研究农药时发现，异常值显著影响t检验和方差分析的结果，而剔除异常值又破坏数学推导的有效性。他提出的秩检验（Wilcoxon rank test）完全基于数据的排序位置，计算方法来自组合数学，对原始分布形式没有假设。

皮特曼后来回答了非参数方法与参数方法的比较问题：当数据真的服从正态分布时，使用非参数检验的效率损失极小；数据稍微偏离正态分布时，非参数检验的优势迅速超过参数检验。这一结论在当时令人意外——许多人原以为"知道参数分布"一定比"不假设分布"更有优势，皮特曼的计算表明差距微乎其微。

抽样理论与经济统计

K·皮尔逊的数据多来自"便利样本"——最容易获得的数据，不能代表总体。马哈拉诺比斯在印度建立统计研究所，发展了随机样本理论：用随机原则抽取样本，可以计算估计值的置信区间，误差概率分布是确定的。随机样本的价值不在于保证每次结果正确，而在于误差可以量化——这一点使其区别于判断样本（judgment sample）和便利样本。

美国大萧条时期，一批年轻经济学家（汉森、科恩菲尔德等）进入联邦政府，将随机抽样方法应用于失业调查、消费者价格指数等国家经济指标的构建。消费者价格指数的核心是"市场篮子"——典型家庭购买的一组商品和服务——需要持续的随机调查来确定权重，并定期修订。这些指标至今是宏观经济政策调整的基础工具，其设计中的每个武断决定（如"失业"的定义、"典型家庭"的范围）都嵌入了统计假设，会影响政策结论。

因果推断的困难

费歇尔在1958年的一系列论文中坚持认为，吸烟与肺癌之间的证据不足——这是他的一个错误结论，但其背后的方法论论证有独立价值：没有随机化实验，显著性检验就缺乏概率计算的合法性前提。观察性研究中，人们是否吸烟是自选择的，事件空间无法像随机实验那样精确界定，P值的计算基础因此动摇。

科恩菲尔德与五位癌症专家1959年的回应论文是流行病学推断方法的范式：汇聚30项来自不同国家、不同人群、不同研究设计的研究，逐一分析每项研究的局限，检验不同批评假设与数据是否相符，最终以压倒性的一致性支持"吸烟是肺癌原因之一"的结论。

罗素对"因果关系"的分析是本书引用的哲学背景：因果关系在符号逻辑框架下无法被精确定义，只能通过"实质蕴涵"（material implication）来近似。科赫的细菌致病假设给出了一组足以验证因果的充分条件，但这些条件只适用于单一病原体引发单一疾病的情形；对吸烟、饮食、环境污染等复杂暴露，科赫假设无法直接套用。流行病学的推断因此永远处于概率性的领域，累积证据可以使某种因果关系越来越难以否认，但逻辑上仍是条件概率的叠加，与演绎证明有根本差别。

质量管理与假设检验的争议

W·爱德华兹·戴明（1900—1993）将统计质量控制引入日本产业界，是这场革命在工业生产领域的传播者。他对假设检验的批评可以归纳为：现实问题几乎从来都是"差异有多大"，而假设检验问的是"差异是否存在"。只要样本足够大，任何微小差异都可以得到显著的P值；通过了显著性检验的差异，在实践中可能毫无意义。

他的"红珠实验"演示了设立不可能目标的荒谬：一桶以1:4比例混有红珠的珠子，要求工人每次铲出50颗中红珠少于3颗——平均结果是约10颗红珠，管理层的表扬和惩罚对实际产出没有任何影响。变异来自系统本身，管理层有责任改变系统，而非惩罚工人。

戴明批评的对象是假设检验被教科书化后的固化问题。费歇尔本人从不孤立使用P值；奈曼本人在应用性论文中也很少直接使用P值。但在FDA、医学期刊等机构将奈曼-皮尔逊理论作为强制标准后，P值被从原来的方法论语境中抽取出来，变成了一个孤立的判断阀门。

稳健统计

统计学的理论定理通常假设所有数据来自同一分布。现实中，少量数据可能来自"有瑕疵的分布"（contaminated distribution）——测量设备异常、操作失误，或实验前未发现的混杂因素。

图基主持的"普林斯顿稳健性研究"（1972）建立了处理这类问题的框架：稳健估计量在数据有瑕疵时自动降低异常值的影响权重；在数据没有瑕疵时，仍然能给出接近最优的估计。博克斯-考克斯变换将测量值做某种数学变换（如取对数），使更广泛的统计方法具有稳健性——两人因姓名凑巧（"博克斯"和"考克斯"是英国经典喜剧中同住一间房的两个角色）一起写了论文，是本书中一个令人会心的细节。

探索性数据分析

约翰·图基（1915—2000）关注"从数据中发现自然形态"，而非"将数据与预设分布对比"。他的探索性数据分析（EDA）框架包括：

茎叶图、箱形图：直接显示数据分布形态，尤其是异常值的位置
快速傅立叶变换：分析时间序列数据中的频率成分，现在仍是信号处理的标准工具
投影追踪：在高维数据中寻找低维结构，因为真实数据往往集中在比测量维度低得多的子空间里

"bit"（位）和"software"（软件）两个词都是图基创造的。他的格言之一："对正确问题的近似答案，胜过对错误问题的精确答案。"

鞅方法与临床试验

保罗·利维（1886—1971）在研究中心极限定理时，发现满足两个简单条件的随机数列（他称之为鞅，martingale）会趋向正态分布：变异有界，且每个数字的最佳预测值就是前一个数字本身。奥伦（Odd Aalen）在1970年将鞅理论引入医学临床试验分析，解决了长期困扰慢性病研究的问题：患者反复住院、出院，数据是一个时间序列，每个患者的记录是多次事件的过程，无法归结为单个数字。将患者的反应序列视为鞅，可以在每个时间点只使用当前在研究中的患者数据进行推断，处理反复住院、多重测量等复杂结构。这一方法现在是慢性病临床试验统计分析的主流框架。

皮托（Richard Peto）的意向治疗（intent-to-treat）分析是临床试验实践层面的重要转变：患者可能中途改变治疗方案，随机化前提被破坏。皮托的方案是仍按原来的随机分配分析，忽略中途改变，因为这适合判断"将某种治疗作为初始方案的公共政策"是否有效——但它不适合直接比较两种治疗方案的疗效。这一区别在实践中常被忽视，导致意向治疗方法被滥用于它不适合的场景。

计算机重塑统计

埃弗龙（Bradley Efron）的自助法（Bootstrap，1982）基于格利文科-坎泰利引理：经验分布函数随样本量增大收敛于真实分布。具体操作是：从原始数据中有放回地反复抽样，每次计算某个统计量，用这些结果的分布来估计该统计量的抽样分布。此方法让分析者无需对数据分布做任何假设，就能估计几乎任何统计量的标准误差。

计算机使这类运算密集型方法成为可行——费歇尔的方差分析公式是排列检验的近似值，电脑足够快时可以直接枚举所有随机排列，精确计算。很多之前需要聪明的数学推导才能得到的答案，现在用暴力重复抽样就能获得。

工程界在不了解数理统计文献的情况下，独立重新发现了核密度估计、层次贝叶斯等方法，用了不同名称（"模糊系统"等）。统计方法的扩散已超出统计学家能掌控的范围，大量重复发现的成本很高，也说明不同学科之间的文献壁垒相当严重。

未解决的哲学问题

本书最后一章指出统计革命在哲学上尚未解决的三个根本问题：

决策与逻辑的矛盾：科恩提出"彩票悖论"——如果允许以0.0001的低概率拒绝假设，则对10000张彩票中的每一张都可以拒绝"它会中奖"的假设，从而得出"没有彩票会中奖"的荒谬结论。统计决策与逻辑推理之间存在根本矛盾，目前没有令人满意的解法。

概率的事件空间问题：柯尔莫哥洛夫的数学定义要求明确"事件空间"。在随机控制实验中，事件空间是所有可能的随机分配，P值的计算基础清晰。在流行病学、天文学、法庭举证等观察性研究中，事件空间无法清晰界定，P值计算的前提就变得模糊。两位统计专家分析同一组数据得出不同结论，有时正是因为他们对事件空间的隐含假设不同。

人类概率认知的局限：人们对"50:50"和"几乎确定"有稳定认知，但对90%与75%等具体数值的区分并不稳健。如果苏佩斯的分析是对的，与人类感知相符的概率体系只有五个离散等级，那么需要精细区分具体概率值的统计方法，其决策意义就受到了质疑。

可迁移的判断框架

从本书可以提取几个用于评判统计分析使用是否恰当的具体判断标准：

实验设计层面：随机化赋予统计推断的合法性基础；缺乏随机化的观察性研究，其P值的计算前提是模糊的，结论的推广应保持谨慎。

P值层面：P值只拒绝零假设，从不证明备择假设为真；脱离备择假设单独讨论P值没有意义；P值的大小与"效应在实践中是否重要"无关，效应的量级需要单独估计。

置信区间层面：区间估计提供比点估计更多的信息；区间过宽说明数据不足以支持精细决策，应寻找更多信息，而非强行从宽区间中提取结论。

样本代表性层面：便利样本的结论不能推广到总体；随机样本的价值在于其误差可以量化，而非在于每次结果更准确。

模型选择层面：高度依赖模型的方法（如观察性研究的调整分析）只有在模型充分近似真实时才成立；非参数方法对分布假设要求宽松，但在数据有特定已知结构时损失效率；稳健方法在存在少量异常值时比两者都更可靠。两者之间没有绝对优劣，取决于研究者对研究对象具有多少先验知识。

因果推断层面：统计相关性永远不能逻辑上证明因果关系；累积的多项研究证据可以使某种因果关系在实践中越来越难以否认，但这是概率性论证，与演绎证明有根本区别。

统计学科学史数据