BOOK NOTES

算法霸权

Name: 算法霸权
Author: 凯西·奥尼尔

凯西·奥尼尔

凯西·奥尼尔（Cathy O'Neil）是数学博士，做过代数数论研究，后来加入对冲基金德劭集团（D.E. Shaw）担任金融工程师，2008年金融危机后离职，先后在风险分析公司RiskMetrics和广告初创公司意向媒体做数据科学家，之后创办算法审计公司。这本书记录了她从金融行业到数据行业的亲历，以及她从这两个行业内部看到的大量有害数学模型案例。

书的中心主张：大数据时代广泛部署的预测模型，以客观和效率为名，把建模者的偏见、误判和短视固化进代码，通过规模化运作对弱势群体造成系统性伤害。奥尼尔将这类模型统称为"数学杀伤性武器"（Weapons of Math Destruction，WMD），全书在七个领域展开：教育、司法、金融、就业筛选、掠夺式广告、保险定价、政治竞选。

WMD 的判定框架

奥尼尔给出三个判定条件：

不透明：被评估者看不到模型的运作逻辑，无法质疑结论，也无法上诉。华盛顿特区教师评估系统的供应商麦斯迈提卡拒绝公开算法，理由是商业机密。教师萨拉·韦索基被解雇后追问了数月也没有得到解释，对方只说"这是算法的结果"。

规模化：同一模型批量施加于大量个体，往往跨机构、跨地区推广。LSI-R 再犯风险量表在美国至少 24 个州的法庭中用于辅助量刑；《美国新闻》大学排名影响了全美 1800 所院校的资源配置和招生策略。

毁灭性：模型的误判造成实质损害，且损害集中在已处于弱势的群体。被评为"高风险"的囚犯得到更长刑期，出狱后面对更差的就业市场，信用进一步恶化——而这些风险变量的输入本身就是此前系统性不平等的产物。

三个条件里，规模化是最危险的放大器。一个有偏见的银行贷款经理每年误判的人数有限，一套 WMD 可以在每毫秒内对数百万个体做出同样有偏见的判断。奥尼尔还对比了另一个参照：棒球统计模型。棒球模型信息透明、数据直接相关、每年都用新赛季成绩修正假设——这三点正好是 WMD 的反面。

模型的本质：主观观点的数学化包装

每个模型都基于建模者的选择：纳入哪些变量，赋予多大权重，以什么为"成功"的定义。这些选择不可避免地反映建模者的目标和偏见，而数学只是给这些主观判断穿了一件精确性的外衣。

《美国新闻》大学排名的编辑想证明模型有效，便用已知名校（哈佛、斯坦福）来校准：如果一流大学排名靠前，模型就"对了"。他们于是选出 SAT 成绩、录取率、校友捐款率等变量——这些本质上是在测量富裕程度。学费成本被完全排除在模型外，因为纳入它会让廉价院校闯入前列，影响模型的可信度。这个排除是无意识的，但对院校管理层发出了一个明确信号：提高这 15 个指标，不必控制学费。1985—2013 年，美国高等教育学费上涨了 5 倍以上。

保险公司定价同样如此。《消费者报告》2015 年调查发现，在佛罗里达州，驾驶记录良好但信用分低的司机，每年多付的保费比信用极好却有酒后驾车记录的司机高出 1552 美元。驾驶记录直接衡量驾驶风险，信用分只是替代变量，但信用分的模型权重更高——因为信用差的司机更穷，更难货比三家，公司可以从这个群体身上提取更高利润。

恶性循环：模型如何自我强化

WMD 有一个固定的运作模式：模型既制造数据，又消费数据，在这个过程中把错误假设固化为表面上的"验证"。

犯罪预测软件 PredPol 以历史犯罪数据指引警察巡逻。一旦把轻罪（流浪、持少量毒品）数据纳入模型，贫困社区会出现更多巡逻，产生更多逮捕和数据点，反过来"证明"该区需要更多警力。富人区没有这条反馈链。由于贫困社区与少数族裔居住区高度重合，模型最终体现出种族偏差，即使代码从未询问过种族。地理位置成为种族的有效替代变量。

奥尼尔用亚马逊做反面参照：如果推荐算法给一个女孩推送了剪草机工具书，点击量立刻下降，公司立刻调整。这是有效的错误反馈。华盛顿特区教师评估模型把 206 名"差"教师开除之后，系统认为任务完成，并不追问其中有多少是被污染数据误伤的好教师。这是缺失反馈回路的 WMD 的标准形态：模型用自己定义的方式解决自己创造的问题。

信用评分被约一半的美国雇主用于招聘筛选。信用差的人更难找工作，失业导致信用进一步恶化，信用越差找工作越难。LSI-R 将贫穷、失业、犯罪朋友圈纳入风险评分，这些变量正是由贫困本身造成的，而更长的刑期又使出狱者回到贫困。模型每次"成功预测"都在加深它自己制造的困境。

各领域展开

大学排名与营利性大学

《美国新闻》排名发展为全美标准之后，各校开始像管理投资组合一样管理招生——每个申请者是一组资产和债务，目标是优化排名分项得分。保底学校开始拒绝那些历史上很可能被更好学校录取的申请者，因为这类学生接受录取的概率低，会拉低学校的选择率数字。这个逻辑本末倒置，但在排名逻辑下是理性的。

2014 年《美国新闻》全球大学排名中，成立仅两年的沙特阿卜杜勒阿齐兹国王大学（KAU）数学系排名第 7，超过剑桥和麻省理工。伯克利大学研究员利奥·帕赫特发现，KAU 向高被引数学家支付 7.2 万美元年薪担任客座教授（每年赴任三周），并要求他们将论文通讯地址改为该校——这正是排名算法中的关键参数。排名中的"学术声誉"变量被金钱直接购买。

营利性大学运作的是另一套模型。菲尼克斯大学、科林斯大学等机构用贝叶斯方法优化广告渠道，在招聘网站发布虚假职位，在大学理事会网站购买 SAT 注册学生信息，锁定处于困境中的人群——退伍军人、单亲妈妈、刚离婚的人、有药物成瘾史的人。翡特罗特学院（Vatterott College）的招生手册明确指示招生人员找到目标的"痛点"（pain point），并注明："他们做出决定，更多基于情绪而非逻辑。痛苦是他们最大的驱动力。"科林斯大学每年营销预算 1.2 亿美元，追踪 240 万潜在客户，最终招到 6 万新生，年收入 6 亿美元；每个学生的平均营销费用 2225 美元，平均教育费用 892 美元。2014 年美国研究协会以近 9000 份虚假简历投送 7 个大城市，发现营利性大学文凭的职场价值与高中文凭相当，但学费比主流公立大学高 20%。破产时，科林斯大学学生的未偿还债务总计 35 亿美元，几乎全部来自纳税人，无法追回。

司法与再犯模型

LSI-R 量表的问卷涉及受访者的成长社区、朋友和亲属的犯罪记录、首次与警察接触的经历。这些变量在法庭上不被接受（辩护律师会立即反对），但以"科学算法"的形式出现时，它们获得了量化权重。纽约公民权利联盟 2013 年数据显示，14—24 岁黑人和拉美裔男性占"拦截-搜身"行动被拦截者的 40.6%，超过 90% 是无辜的。这些拦截记录和轻罪档案成为 LSI-R 的输入数据，推高量刑建议，延长刑期。

密歇根大学经济学家穆勒-史密斯研究了得克萨斯州哈里斯县 260 万份刑事案件记录，发现服刑时间越长，出狱后找不到工作的可能性越大，申请公共援助比率越高，再犯概率也更高。这直接质疑了"高风险者刑期越长社会越安全"这个假设——而 LSI-R 系统从未进行过这类核查。私营监狱市值 50 亿美元，满员时才能盈利，没有动力研究哪些因素能减少再犯。监狱系统只用数据反复证明现有系统的合理性，不追问系统的假设是否成立。

金融危机的模型机制

银行打包抵押贷款为债券时，依赖两个假设：顶尖数学家已充分评估风险；违约是随机不相关事件，分散化可对冲风险。标准普尔、穆迪、惠誉向出售债券的银行收取评级费，给明显有问题的产品打 AAA 评级。哪家评级机构给出低评级，就等于把收入拱手让给竞争对手——所以评级机构与银行达成了共同利益。2007 年底，次级贷款相关市场体量超过 60 万亿美元。数学能让谎言规模化，但无法逆转它——清理过程只能由人工完成，因为算法无法区分虚假承诺和真实资产。

就业筛选

克罗诺思（Kronos）等公司开发的人格测试被 60—70% 的美国企业用于招聘。艾奥瓦大学弗兰克·施密特分析近百年员工表现数据，发现人格测试的预测准确度只有认知测试的三分之一，远低于背景调查。但测试的实际功能是低成本批量排除申请者，而非寻找最优人选。

凯尔·贝姆因躁郁症历史被测试"亮红灯"，被克罗格、终点线、家得宝等多家连锁店拒绝——全部是同类测试。他父亲是律师才追查到了原因并发起集体诉讼。大多数求职者既不知道被拒原因，也没有资源追诉。

圣乔治医学院 1970 年代的自动化招聘系统，用历史筛选记录训练算法，把人类筛选者对外国名字和女性申请者的偏见编入代码。1988 年英国种族平等委员会发现，每年有 60 名申请者仅因种族或性别无缘面试。系统从未"学坏"——它只是学会了人类历史数据里早已存在的歧视，并以更高的效率执行。

求职平台吉利德（Gild）发现，一批技术天才会经常访问某个日本漫画网站，并将这一行为模式纳入候选人评分。登录该类网站以男性为主——一位不看漫画的女工程师在模型中会因此丢分，与她的实际技术能力无关。

掠夺式广告与发薪日贷款

互联网广告模型通过关键词搜索、地理标签、点击行为识别处于困境中的用户：搜索"食品券"、点击发薪日贷款广告、居住在低信用评分邮政编码。这些信号组合成一个"脆弱"的档案，下一步就是把对应产品推送进去。

中子互动（Neutron Interactive）在招聘网站发布虚假职位，用收集到的求职者电话号码转卖给营利性大学，每个名字售价 85 美元。2015 年联邦贸易委员会发现，两家数据代理商非法出售 50 多万消费者的贷款申请信息（每条约 50 美分），导致受害者累计损失 710 万美元——平均每个账户 14 美元，但被盗的可能是那个贫困家庭账户里仅剩的一笔钱。

发薪日贷款平均年利率 574%，还款额约为借款额的 8 倍。ZestFinance 创始人梅里尔声称"所有数据都是信用数据"，在 1 万个数据点中包括申请表是否正确使用大小写、申请人花了多长时间阅读合同。大小写使用习惯与受教育水平相关，受教育水平与阶级和种族相关——这条链条直接继承了历史上的不公平，以算法形式表达出来。

保险定价

好事达的定价系统建有 10 万个"微区段"，不同区段的客户面对的保费差异最高为 800%，超出了基于风险定价的合理范围。美国消费者联合会发现，好事达的模型测量的是客户能接受的最高价格，而不完全是驾驶风险。

保险公司提供 GPS 追踪折扣项目，同意被追踪的司机可以得到保费减免，其余客户间接补贴这些折扣。数据积累之后，不参加追踪的客户在统计上的"不透明性"将被识别为风险因素，未来保费可能因此上升。奥尼尔的推断是：隐私将逐渐变成只有富人负担得起的奢侈品。

健康保险中的 BMI 指标由 19 世纪比利时数学家凯特莱为大规模人口统计而创建，与医学健康判断无关。企业健康计划用它惩罚员工：米其林要求员工血压、血糖等五项指标中不超过三项超标，否则每年多缴 1000 美元；CVS 要求员工上报体脂、血糖等，否则每年罚款 600 美元。加州大学洛杉矶分校法律教授霍维兹 2013 年的随机实验显示，吸烟和肥胖员工的高医疗费用大多发生在晚年，届时他们已退出公司健康计划，费用转由老年人医疗保险承担——健康计划节省的钱实质上来自克扣在职员工的薪酬。

政治微目标定向

奥巴马 2012 年竞选数据科学家伊德·加尼把超市消费者分析模型迁移到选民分析：通过深度采访数千人，建立价值观分组，在全美数据库中找相似档案，用 A/B 测试优化针对每个分组的宣传信息。"Hey！"标题的邮件打扰感最强但点击率最高，这是测试得出的结论，而非直觉判断。

脸书 2010 年和 2012 年"选举日实验"显示，带朋友照片的投票鼓励信息比不带朋友照片的版本更能促使人投票，整个运动共促进约 34 万原本不打算投票的人参与了投票。在 2000 年乔治·W·布什以 537 票差距赢得佛罗里达州的背景下，这一数量级足以改变选举结果。脸书 2012 年对 68 万用户的情绪实验（调整信息流中正负内容比例）证明平台能影响用户此后的发帖情绪；62% 的用户不知道脸书会过滤信息流，他们认为自己看到的就是所有朋友发布的内容。

剑桥分析公司分析了 4000 多万美国选民的五大人格特征（来自脸书点赞记录），为泰德·克鲁兹竞选团队设计差异化广告，并将广告投放范围精确限制在特定地点（如某场募款活动的酒店大楼内）。每个选民从不同政客那里收到专门针对自己设计的信息，彼此无从核对，对方看到的是什么，自己完全不知道。

奥巴马竞选团队的模型将 1500 万摇摆选民识别出来，并为每个选民建立包含多维评分的档案（环境议题关注度、社保关注度、动员意愿等）。这些档案与亚马逊和网飞的用户档案在结构上相同：通过数据预测行为，通过信息推送影响行为。

WMD 的系统效应

奥尼尔描述了各个 WMD 在穷人生命周期中的交叉作用。贷款历史产生信用记录，电子评分把信用差的人识别为"高风险"，掠夺式广告精准投放，营利性大学用高息贷款打包成"教育机会"；毕业后文凭无用，求职时人格测试和信用查询两道门关上；被捕后再犯模型加长刑期，出狱后回到原来社区，循环继续。这些 WMD 不是独立运作的，它们共享数据，互相喂养。

在另一个方向，富人收到的是：精英大学申请咨询（1.6 万美元起的训练营）、优质信贷、个性化服务、专业律师。同一套建模逻辑在两个方向上运行，只是目标函数不同——对穷人，目标是提取最大化收入；对富人，目标是提供个性化服务。

奥尼尔引用 2015 年数据：美国白人家庭的平均财产是黑人家庭和拉美裔家庭的 10 倍。超过三分之一的黑人和拉美裔家庭没有储蓄。WMD 放大了这一差距，而不是纠正它。

奥尼尔提出的对策

建模者的希波克拉底誓言：由金融工程师德曼（Emanuel Derman）和威尔莫特（Paul Wilmott）草拟——明确模型的假设和忽略的因素，不夸大精确度，承认潜在的社会影响。奥尼尔认为这是必要出发点，但仅靠个人自律不够，因为数据科学家受雇于机构，面对具体的绩效压力。

算法审计：普林斯顿大学"网络透明和问责项目"用软件机器人扮演不同身份（富人/穷人、黑人/白人），探测自动化系统的差别对待。ProPublica 的"短信机器"通过众包逆向解析奥巴马竞选团队的微目标模型，让公众知道哪些名人背书被推送给哪些人群。审计的方法是把 WMD 当作黑盒，研究输出结果的分布，从中拼凑出潜在的假设。

法规更新方向：

《公平信用报告法》和《平等信用机会法》需扩展覆盖新型电子评分系统，消费者有权知晓和纠正影响自己评分的数据
《美国残疾人法案》需将健康评分和基因预测纳入保护范围
参考欧洲"不可重复使用"条款：禁止将用户数据转售给数据代理商，斩断个人信息的二级市场

重新定义成功标准：奥尼尔用两个模型说明同样的技术可以朝相反方向使用。米拉·伯恩斯坦为非营利组织"自由世界生产"建立的供应链奴役探测模型，帮助企业识别并消除强迫劳动——模型只指向可疑之处，问题的确定和解决由人类完成，有明确的错误反馈机制。Eckerd 儿童服务机构的虐待风险预测模型（佛罗里达州希尔斯伯勒县），目标是为高风险家庭提供帮助，而不是惩罚父母——模型启动后两年内，该县没有再发生虐待儿童致死案件。两个模型都做到了同一件事：以减少伤害为目标，有外部审查，接受反馈修正。

一个分析工具

奥尼尔在书中给出了一套对任何预测模型都适用的拆解路径，以下是从全书提炼的问题集：

透明度：模型的输入变量和权重是否公开？被评估者是否知道他们处于评估之下？
建模者的目标：建设者想优化什么？谁是实际受益方？优化目标和模型声称的目标一致吗？
替代变量：模型用什么代替了直接测量？替代变量和被测目标之间的关联是否经过独立验证，还是只是相关性？
反馈回路：模型的错误判断是否会被记录并用于修正模型？如果没有，错误将向哪个方向累积？
规模化后果：如果这个模型成为行业标准，集体遵循会产生什么扭曲效应？（《美国新闻》排名成为标准后，学费上涨5倍、保底学校消失、SAT培训产业崛起，这些都不在原始模型的预期内。）
损害分布：误判带来的成本由谁承担？这个人群是否有渠道申诉或反馈？

奥尼尔在书的末尾写道：大数据程序只能将过去编入代码，而不会创造未来。创造未来需要道德想象力，而想象力只有人类才有。这是对"算法客观性"这一幻觉最直接的拆解——算法继承历史，历史本来就有偏差，规模化只是把偏差的影响放大了。

算法社会科学