赤裸裸的统计学

BOOK NOTES

赤裸裸的统计学

查尔斯·韦兰

《赤裸裸的统计学》是查尔斯·韦兰写给普通读者的统计学入门书,原书名 Naked Statistics,2013年由中信出版社出版中文版。韦兰是美国达特茅斯学院经济学教授,此前写过《赤裸裸的经济学》。本书的出发点很直接:统计学在新闻、医学、政策、商业中无处不在,但绝大多数人既不懂其机制,也不知道它在什么条件下会失效。书的目标是用直觉,而非数学公式,解释统计工具的作用原理和失效边界。

全书14章,线索清晰:先建立描述统计的基本语言,再讲统计数字如何产生误导,然后进入概率、抽样、假设检验、回归分析,最后落在因果推断与项目评估。结尾以五个现实问题作结,说明这套工具能做什么、做不到什么。

描述统计的基本工具

集中趋势的三种量度

平均数是所有数值的算术均值。优点:计算简单,对连续分布有较强概括力。弱点:对极端值高度敏感。韦兰用一个例子说明这一点:酒吧里10个年收入3.5万美元的人,比尔·盖茨坐进来之后,这11个人的平均收入立刻飙到约9100万美元。这个平均数在数学上准确,但对任何一个坐在吧台前的人的收入描述都毫无意义。

这个问题在宏观数据中同样成立。用人均收入衡量美国中产阶级的经济状况是错误的,因为收入顶端1%人群的暴涨会拉高平均值,而多数人的实际收入可能在原地踏步。

中位数是将数据分成两半的那个值,对极端值不敏感。将比尔·盖茨放进上述酒吧,中位数仍是3.5万美元。衡量典型美国工人的工资水平,中位数比人均收入更合适。韦兰引用劳动经济学家的建议:关注中位数工资及第25、75百分位数的工资变化,而非人均收入的名义增减。

中位数也有弱点:它对超出中间位置多远一无所知。进化生物学家斯蒂芬·杰·古尔德被诊断出腹腔间皮瘤,中位生存期8个月。但这个中位数告诉他的只是,有一半病人活不到8个月,另一半活得更长。实际上他活了20年。当极端值恰好是你最关心的部分(比如有人真的被治愈了),中位数会掩盖这个信息。

百分位数是中位数的延伸:第90百分位数意味着你超过了90%的人。它提供相对位置,不依赖绝对数值本身的量纲。

离散程度的量度

标准差衡量数据相对于平均值的分散程度。两组人的平均体重相同,不代表他们的体重分布相同。一班波士顿马拉松运动员和一班普通航班乘客的平均体重可能都是155磅,但航班乘客的标准差远大于运动员——有婴儿,也有体重320磅的人。这个差异在很多场合比平均值本身更重要。

标准差还能赋予单个数值以意义。已知HCb2指标的平均值为122、标准差为18,当你的数值是134时,偏差仅为0.67个标准差,属于正常范围。如果没有标准差这个参照,一个高于均值12的数字会让人不必要地恐慌。

正态分布是统计学中最重要的分布形态。数据以平均值为轴对称分布,呈钟形曲线。正态分布的价值在于一旦知道均值和标准差,就能精确计算任意区间内的数据比例:约68%的数据在均值±1个标准差内,约95%在±2个标准差内,约99.7%在±3个标准差内。SAT考试成绩、爆米花爆裂时间、成年男性身高,都近似正态分布。

常见描述性指数

基尼系数是衡量收入不均等程度的经济指标,0代表完全均等,1代表财富全部集中于一人。它与NFL传球效绩指数在逻辑上完全相同——都是把复杂信息压缩成一个便于比较的数字,都牺牲了细节换取可读性。2007年美国的基尼系数为0.45,高于加拿大(0.32)和瑞典(0.23),低于巴西(0.54)和南非(0.65)。这个数字本身意义有限,但用于跨国或跨时期比较时有具体意义。

任何指数都对其构成敏感。《美国新闻与世界报道》大学排名包含16个指标,马尔科姆·格雷德威尔指出:把"外观"项的权重由4%调整为25%,跑车排名第一的就会换成莲花路特斯,原先居首的保时捷卡曼落下去了。指数的局限在于,选择哪些指标、赋予各多少权重,都是人为判断,不存在客观唯一的"正确答案"。

统计数字的误导方式

精确性与准确性的区别

两者不能互换。精确性指描述的精度(小数点后几位),准确性指与真实情况的符合程度。韦兰用高尔夫测距仪举例:仪器显示147.2,这很精确,但如果计量单位设的是米而非码,那么这个精确的数字会系统性地误导每一次击球决策。2008年金融危机前华尔街的VaR模型就是这类错误的极端版本——数学运算极为精密,但模型的基础假设是错误的(只用过去20年平稳增长期的数据来预测风险),导致精确计算出了错误的结论。

平均数与中位数的选择性使用

面对同一组数据,选择均值还是中位数,结论可以截然相反。小布什政府的减税政策宣传称人均减税额超过1000美元,但减税额的中位数还不足100美元。因为少数巨富的大额减税拉高了均值,多数家庭实际感受的减税远低于宣传数字。均值和中位数都是准确的,但传递的信息截然不同——选择哪个,取决于是否想展示极端值的影响。

百分比的陷阱

一件售价100美元的连衣裙,先降价25%再涨价25%,最终售价是93.75美元,低于原价,因为两次百分比计算的基数不同。这个逻辑在政治话语中被广泛使用:伊利诺伊州个人所得税税率调整至5%,在原来3%的基础上变动了2个百分点,民主党用绝对变化(2个百分点)描述,共和党用相对变化(67%)描述,两种说法在数学上都正确,但传递的感受完全不同。

百分比还有两个操纵方式:一是用极低的基数放大增幅(比如某税款原先1.15美元,涨至6美元后增幅达527%,但绝对增加不足5美元);二是用庞大的总量弱化比例(军费增加4%听起来不多,但4%的7000亿美元是280亿美元,超过NASA的全部预算)。

名义值与实际值

不考虑通货膨胀的历史比较会产生系统性失真。1950年的1美元相当于2011年的9.37美元。好莱坞常以名义票房宣称某部新片"创历史记录",但剔除通胀后,《乱世佳人》(1939年)仍是美国史上票房第一。同理,评价政府在某项目上的投入,名义金额增加不代表实际购买力增加。

分析单位的选择

2013年可以同时成立"有6成学校的考试成绩下降"和"有8成学生的考试成绩提高"——条件是成绩提升的学生恰好集中在规模最大的学校。全球化是否加剧了贫富差距,取决于分析单位是"国家"还是"人":以国家为单位,富国增长快于穷国;以人口为单位,中国和印度合计有几十亿人口,这两个国家的经济高速增长让世界上绝对数量最多的穷人获益,全球不平等程度反而在下降。

概率的基本结构

期望值与风险

期望值是所有可能结果的概率加权平均。彩票的期望值远低于票价,长期来看必然亏损——赌场就是靠这个生存的。保险的合理性在于:即使你缴纳的保费高于期望赔偿金额,也值得购买,因为人们的效用函数对大额损失的厌恶程度超过对同等金额收益的喜爱。

信用卡公司用消费行为预测还款风险。加拿大轮胎公司分析发现:购买廉价通用汽油的人更容易逾期还款;购买骷髅头汽车挂件或改装排气管的人基本不会按时还款;为家里添置一氧化碳探测器或凳脚套的人几乎从不逾期。这是概率在商业决策中的典型应用——每个结论都是统计意义上的倾向,无法保证个体行为,但可以管理总体风险。

蒙提·霍尔问题

电视节目《让我们做个交易》中,三扇门后面有一辆车和两只羊。选手选定一扇门后,主持人蒙提从另外两扇门中打开一扇有羊的门,然后问选手是否换选。

直觉告诉多数人概率变成了50-50,换不换无所谓。但这是错误的。正确答案是:坚持原选的中奖概率为1/3,换选后的中奖概率为2/3。

机制如下:选手最初选错的概率是2/3。如果选错了,另外两扇门中必有一扇是车,蒙提打开羊的那扇,剩下的一定是车——换选必赢。如果选对了(概率1/3),换选必输。因此换选在2/3的情形下获胜,坚持只在1/3的情形下获胜。蒙提掌握信息(他知道哪扇门有车)并据此行动,这个行动传递了信息,改变了剩余门的概率。

这个悖论的教训:在有信息更新的情境下,初始直觉关于概率的判断经常是错误的。

常见概率谬误

独立性错误:婴儿猝死综合征(SIDS)案件中,英国检方以"同一家庭两名婴儿猝死的概率为1/8500² ≈ 7300万分之一"作为定罪依据。但这个计算的前提是两次死亡相互独立,而实际上同一家庭的婴儿之间可能存在基因或环境上的共同因素,使得第二次死亡的概率远高于1/8500。英国因此出现了多起错判,2004年宣布对258起案件重审。

赌徒谬误:轮盘赌连续5次停在黑色,并不提高下一次停在红色的概率。每次旋转都是独立事件,结果对下一次没有影响。认为"该轮到我赢了",是把不相关的独立事件当成了有记忆的序列。

检方谬误:在一个储存了100万人DNA信息的数据库中,即使某人的DNA与犯罪现场的DNA匹配,且误匹配概率只有百万分之一,也不能直接推断他有罪。因为100万次比对本身就使得找到一个偶然匹配者的概率大幅提高。DNA证据必须结合其他证据和背景才能形成定罪依据。

回归平均数:球星在超常发挥的赛季后往往表现回落。超常发挥本身就是均值上下的随机波动,之后必然趋向均值。加盟新队伍与这个回落过程无因果关系。芝加哥小熊队花大价钱签下刚完成几个出色赛季的球员,买到的经常是超常发挥已近尾声的球员。

数据质量与偏见

数据质量决定了统计分析的上限。再精密的分析方法遇到有问题的数据,也会产生错误结论。

抽样偏见

1936年,《文学文摘》向1000万名美国人寄出问卷,预测阿尔夫·兰登将以57%的得票率当选总统。结果富兰克林·罗斯福以压倒性优势赢得46个州。问题出在样本:问卷寄给了杂志订阅者、有车族和有电话的人,这些人比普通美国人更富裕,倾向于共和党。样本规模越大,偏见造成的误差越大。一个存在系统性偏见的百万级样本,比一个干净的千人样本更具误导性。

选择性偏见

某机场调查的受访者偏富裕;志愿加入戒毒计划的犯人与其他犯人本来就不同(主动求改变的意愿本身是一个变量),因此即使戒毒后再犯率低,也无法证明这是戒毒计划的功效,而非这群人原本就更愿意改变。民意调查中,自愿参与的人(如打进广播热线的听众)与不参与的人之间存在系统性差异。

发表性偏见

显著结果(如发现某药物有效、某行为能预防癌症)比无效结果更容易被医学期刊接受。抗抑郁药物的临床试验中,证明药物有效的研究有94%得到发表,证明无效的只有14%被发表。综合所有研究来看,主要抗抑郁药物的实际效果只比安慰剂略好。发表性偏见会让公众和医生系统性地高估某类药物或治疗手段的效果。

希腊流行病学家约翰·艾奥尼蒂斯对三本顶级医学期刊中被引用超过1000次的49篇论文统计发现,其中约1/3的结论被后续研究推翻。他估计已发表的科学论文中约有一半最终会被证明是错误的。

健康用户偏见

打壁球的人通常比不运动的人心脏更健康,但这未必是因为壁球的健身效果,也可能是因为能打壁球的人本来就更富裕、有更好的医疗条件、更注重健康。忽略这一混淆因素,会把财富与健康的关系误判为运动与健康的因果关系。

回应偏见

民意调查中,受访者在敏感问题上的回答往往经过美化。自称会去投票的人中,有1/4到1/3实际不会去投票。关于出轨、犯罪或偏激观点的问题,受访者的答案更难直接采信。

统计推断:样本、总体与误差

中心极限定理

这是统计学最重要的定理之一,韦兰反复强调其实际意义:

核心结论:无论总体分布是什么形状,从该总体中取足够大的随机样本,样本均值的分布趋近于正态分布,且以总体均值为中心,以"标准误差"(= 标准差/√n)为离散度。

实际含义:一个设计合理、足够大的随机样本,其统计结果能准确反映总体。盖洛普民调认为1000人的样本能代表全美国,这在统计上是成立的——前提是样本必须随机抽取,且不存在系统性偏见。

标准误差随样本量增大而减小(比例为 1/√n),这解释了为何更大的样本能给出更精确的估计,以及为何选举后民调的2000人样本比500人样本给出更小的误差幅度。

假设检验

研究人员检验某个主张的标准流程:

  1. 设定零假设(通常是"没有效果"或"没有差异")和备择假设
  2. 收集数据,计算如果零假设成立,观察到当前结果的概率(即p值
  3. 如果p值低于预设的显著性水平(通常为0.05),则推翻零假设

置信区间:在95%置信水平下,置信区间表示如果重复抽样100次,有95次的样本结果会落在总体真实值±X的范围内。民意调查中的"误差幅度±3%"即是95%置信区间的表达。

自闭症儿童的平均脑量(1310.4立方厘米)与健康儿童(1238.8立方厘米)相差71.6立方厘米,超过3个标准误差,如果两者属于同一总体,出现这么大差异的概率只有0.002。这是推翻零假设("自闭症儿童与健康儿童脑量相同")的依据。

两类错误的权衡

假设检验存在两种出错方式:

第一类错误(假阳性):零假设实际上是正确的,却被错误地推翻。比如将无辜者判定为有罪。降低显著性水平的门槛(如将0.05改为0.1)会增加第一类错误。

第二类错误(假阴性):零假设实际上是错误的,却未能被推翻。比如有效的药物未能通过临床试验。提高门槛(如要求p<0.001)会增加第二类错误。

这两类错误之间存在不可消除的权衡。癌症筛查宁可接受较多假阳性(漏掉癌症的代价更高),垃圾邮件过滤则宁可接受较多假阴性(错误屏蔽重要邮件的代价更高)。

显著性水平0.05意味着:如果零假设成立,在20次研究中平均会有一次得到"具有统计学意义"的错误结论。这一事实加上发表性偏见,解释了为何医学研究中有大量结论后来被推翻。

回归分析

最小二乘法与回归线

回归分析寻找两个变量之间的最佳线性关系。以身高预测体重为例,**最小二乘法(OLS)**找出一条使所有数据点到回归线的距离平方和最小的直线,得到方程:体重 = -135 + 4.5 × 身高(英寸)。

回归方程告诉我们:在此数据集中,身高每增加1英寸,体重平均增加4.5磅。残差(实际值与预测值的差)反映了模型未能解释的个体差异。

多元回归允许同时引入多个解释变量。"白厅研究"用回归分析控制了英国公务员的吸烟习惯、收入等因素后,发现"对工作缺乏控制力"本身与心脏病发病率存在独立的正相关关系——那种等待上级指派、自己没有决定权的工作状态,是比高责任高压力更危险的心血管风险因素。

常见回归错误

遗漏变量偏差:未纳入某个与因变量和解释变量都相关的重要变量,会让两个实际上没有因果关系的变量呈现出虚假的相关性。"小憩的人更易患癌症"——遗漏的变量是吸烟(去小憩的人恰好也是去吸烟的人)。"教育程度高的人更长寿"——未控制收入和医疗资源获取,就不能把长寿归因于教育本身。

因果倒置:犯罪率高的地方警察也多,简单相关分析会得出"警察越多犯罪越多"的荒谬结论。实际上是高犯罪率导致了大量派警,而非相反。

健康用户偏见:爱吃麸皮饼的人在结肠癌发病率上更低,但吃麸皮饼的人可能本来就有更健康的整体生活方式(少吃红肉、定期锻炼),麸皮饼本身未必是保护因素。

相关关系与因果关系:统计分析能发现两个变量同步变化的规律,但无法自动证明其中一个导致了另一个。分析结论需要有理论支持——机制是什么?为什么这个变量会影响那个结果?结论能否在其他研究中复现?

因果推断:项目评估

反现实问题

评价任何政策或干预手段,都需要比较"有干预"和"没有干预"的结果,但这两者不能同时被观察。进入哈佛之后发生了什么是可知的,但"如果没有进哈佛会发生什么"无从直接观测。项目评估的核心任务是用各种方法构造出尽可能接近真实的"反现实"。

随机控制实验

将研究对象随机分配到实验组(接受干预)和对照组(不接受干预),是控制混淆变量最彻底的方法。随机化确保两组在可观测和不可观测的特征上都趋于均衡,从而使两组之间的差异可以归因于干预本身。

田纳西州STAR项目(1985年)将学生随机分到小班和常规班级,教师也随机分配。结论:小班学生的标准化考试成绩高出常规班约0.15个标准差,黑人学生的进步是白人学生的两倍。这是检验小班教学效果唯一的随机实验,但耗资1200万美元。

医学双盲试验中,研究人员发现一种用于缓解膝盖疼痛的手术,在与"假手术"(只划3道小切口,不做任何实质操作)的对照实验中,实际手术的效果与假手术相当——安慰剂效应可以大到足以在主观疼痛评估中消除手术本身的贡献。

有关陌生人祈祷是否加快心脏搭桥手术患者的康复,一项花费240万美元的随机对照实验发现:有人为其祈祷的患者与没有的患者,术后30天的恢复状况没有可观测的差异。

自然实验

当某个事件偶然创造出近似随机分组的条件,研究人员可以利用这个"天然实验室"来估计因果效果。

华盛顿特区的研究:恐怖袭击橙色预警期间,首都某些区域出于安保目的额外增派了大量警力,这与日常犯罪率变化本身无关(外生变量)。对比橙色预警日和黄色预警日的街头犯罪数据,发现增派警力使犯罪率下降约7%,且增派最多的警区下降幅度最大。这解决了普通回归分析中"高犯罪区域本来就警察多"的因果倒置问题。

义务教育年限研究:美国各州在不同时期调整过最低受教育年限。哥伦比亚大学研究员莱拉斯-姆耐比较了调整前后同一州居民的寿命变化,并以未调整年限的邻近州作为对照。结论:多接受1年义务教育,35岁以上成年人预期寿命延长约1.5年。

差分类差分法

在无法随机分组时,"差分类差分"(Difference-in-Differences)通过比较"实验组治疗前后的变化"与"对照组同期变化",来分离出干预效果。

例:某县推行就业培训计划后失业率仍在上升。单看实验组的前后变化会得出"计划无效"的结论。但若同期没有推行该计划的对比县失业率上升得更多,则该计划实际上降低了失业率的上升幅度——这个差值才是计划的净效果。

不连续分析

将刚好满足某个条件阈值(如考试分数恰好不及格)的人与恰好未满足的人(分数刚好及格)进行比较。这两类人在其他方面高度相似,只有一类人接受了干预(如强制参加暑期补习班),因此两组之间的结果差异较可信地反映了干预效果。

华盛顿州对青少年罪犯的研究:将恰好够得上判处监禁与恰好免于监禁的青少年进行比较,发现被判入狱者出狱后再次犯罪的概率显著低于免于监禁者。这一结论通过传统回归分析几乎不可能得出(因为被判监禁的本来就是犯罪更严重的人)。

黑天鹅:小概率风险的致命性

2008年金融危机前,华尔街通用的风险评估工具是VaR(风险价值)模型。该模型每天生成一个数字,表示公司持仓在特定时间内有99%的概率不会超过的最大损失额——比如1900万美元。

这个工具存在三个致命缺陷:

第一:模型只使用了过去20年相对平稳的数据来预测风险。金融市场的历史数据对未来的预测力有条件限制,1980年至2005年经济繁荣期的数据无法代表包含多次危机的更长历史。美联储前主席格林斯潘在国会作证时承认,如果模型纳入了历史上几次重大危机的数据,银行的资本要求会更高。

第二:1%的尾部风险被系统性地忽略。VaR模型描述的是99%概率内发生的事,但金融危机恰恰属于那1%。更糟糕的是,模型没有告诉管理者:一旦那1%发生,损失规模会有多大。

第三:各家公司都以为自己在危机时可以迅速出售资产套现,却没有意识到所有公司会在同一时刻都想这么做——这是对个体策略的有效性做了错误的总体化推演。

韦兰引用塔勒布的总结:能看见、算得出的风险,对组织的生存威胁往往有限;真正致命的是那些超出模型想象的情形,它们出现的频率比人们以为的更高。VaR的数学本身没有缺陷,问题在于把精密的数学运算误当成了对极端情形的保护——然而它覆盖的只是99%的概率区间,剩下1%的空间完全暴露。

可迁移的判断框架

这是全书贯穿始终、可直接应用的判断方式:

读到一个统计结论,先问

  • 样本是怎么来的?有没有选择性偏见或自我选择问题?
  • 用的是均值还是中位数?这组数据有没有极端值,选哪个更能反映典型情况?
  • 比较的是绝对数字还是百分比?基数是什么?
  • 是名义数字还是剔除通胀后的实际数字?
  • 分析单位是什么(人/学校/国家)?不同单位下结论会不会反转?
  • 结论是相关关系还是因果关系?有没有可能存在遗漏变量或因果倒置?

读到一个研究发现,再问

  • p值有多低?显著性水平是事先设定的还是事后调出来的?
  • 这是唯一一项研究还是多项研究的汇总?有没有发表性偏见?
  • 样本足够代表目标总体吗?
  • 结论有理论机制支持吗?能在其他条件下复现吗?

关于精确与准确:一个精确到小数点后三位的答案,如果方向错了,比一个大致正确的粗略答案更危险。数字的精度不等于数字的可信度。计算越复杂,越需要检查输入假设是否合理。

关于激励与数据:被用来衡量和奖惩的指标,往往会被管理对象操纵,而非被真正改善。休斯敦学区的辍学率被人为压低、纽约心外科医生为维持死亡率指标而拒绝收治高危病人——这是"古德哈特定律"在数据层面的体现:一个指标一旦成为目标,就不再是一个好的指标。

关于统计与判断的边界:统计分析能告诉你概率,帮你找到规律,但它不能替代价值判断。保险公司按性别定价在统计上是理性的(男性出险率确实更高),欧盟禁止这种做法是政策选择——两件事属于不同的层面。数据是工具,工具本身不能决定工具的使用边界应在哪里。