BOOK NOTES
算法霸权
凯西·奥尼尔
凯西·奥尼尔(Cathy O'Neil)是数学博士,做过代数数论研究,后来加入对冲基金德劭集团(D.E. Shaw)担任金融工程师,2008年金融危机后离职,先后在风险分析公司RiskMetrics和广告初创公司意向媒体做数据科学家,之后创办算法审计公司。这本书记录了她从金融行业到数据行业的亲历,以及她从这两个行业内部看到的大量有害数学模型案例。
书的中心主张:大数据时代广泛部署的预测模型,以客观和效率为名,把建模者的偏见、误判和短视固化进代码,通过规模化运作对弱势群体造成系统性伤害。奥尼尔将这类模型统称为"数学杀伤性武器"(Weapons of Math Destruction,WMD),全书在七个领域展开:教育、司法、金融、就业筛选、掠夺式广告、保险定价、政治竞选。
WMD 的判定框架
奥尼尔给出三个判定条件:
不透明:被评估者看不到模型的运作逻辑,无法质疑结论,也无法上诉。华盛顿特区教师评估系统的供应商麦斯迈提卡拒绝公开算法,理由是商业机密。教师萨拉·韦索基被解雇后追问了数月也没有得到解释,对方只说"这是算法的结果"。
规模化:同一模型批量施加于大量个体,往往跨机构、跨地区推广。LSI-R 再犯风险量表在美国至少 24 个州的法庭中用于辅助量刑;《美国新闻》大学排名影响了全美 1800 所院校的资源配置和招生策略。
毁灭性:模型的误判造成实质损害,且损害集中在已处于弱势的群体。被评为"高风险"的囚犯得到更长刑期,出狱后面对更差的就业市场,信用进一步恶化——而这些风险变量的输入本身就是此前系统性不平等的产物。
三个条件里,规模化是最危险的放大器。一个有偏见的银行贷款经理每年误判的人数有限,一套 WMD 可以在每毫秒内对数百万个体做出同样有偏见的判断。奥尼尔还对比了另一个参照:棒球统计模型。棒球模型信息透明、数据直接相关、每年都用新赛季成绩修正假设——这三点正好是 WMD 的反面。
模型的本质:主观观点的数学化包装
每个模型都基于建模者的选择:纳入哪些变量,赋予多大权重,以什么为"成功"的定义。这些选择不可避免地反映建模者的目标和偏见,而数学只是给这些主观判断穿了一件精确性的外衣。
《美国新闻》大学排名的编辑想证明模型有效,便用已知名校(哈佛、斯坦福)来校准:如果一流大学排名靠前,模型就"对了"。他们于是选出 SAT 成绩、录取率、校友捐款率等变量——这些本质上是在测量富裕程度。学费成本被完全排除在模型外,因为纳入它会让廉价院校闯入前列,影响模型的可信度。这个排除是无意识的,但对院校管理层发出了一个明确信号:提高这 15 个指标,不必控制学费。1985—2013 年,美国高等教育学费上涨了 5 倍以上。
保险公司定价同样如此。《消费者报告》2015 年调查发现,在佛罗里达州,驾驶记录良好但信用分低的司机,每年多付的保费比信用极好却有酒后驾车记录的司机高出 1552 美元。驾驶记录直接衡量驾驶风险,信用分只是替代变量,但信用分的模型权重更高——因为信用差的司机更穷,更难货比三家,公司可以从这个群体身上提取更高利润。
恶性循环:模型如何自我强化
WMD 有一个固定的运作模式:模型既制造数据,又消费数据,在这个过程中把错误假设固化为表面上的"验证"。
犯罪预测软件 PredPol 以历史犯罪数据指引警察巡逻。一旦把轻罪(流浪、持少量毒品)数据纳入模型,贫困社区会出现更多巡逻,产生更多逮捕和数据点,反过来"证明"该区需要更多警力。富人区没有这条反馈链。由于贫困社区与少数族裔居住区高度重合,模型最终体现出种族偏差,即使代码从未询问过种族。地理位置成为种族的有效替代变量。
奥尼尔用亚马逊做反面参照:如果推荐算法给一个女孩推送了剪草机工具书,点击量立刻下降,公司立刻调整。这是有效的错误反馈。华盛顿特区教师评估模型把 206 名"差"教师开除之后,系统认为任务完成,并不追问其中有多少是被污染数据误伤的好教师。这是缺失反馈回路的 WMD 的标准形态:模型用自己定义的方式解决自己创造的问题。
信用评分被约一半的美国雇主用于招聘筛选。信用差的人更难找工作,失业导致信用进一步恶化,信用越差找工作越难。LSI-R 将贫穷、失业、犯罪朋友圈纳入风险评分,这些变量正是由贫困本身造成的,而更长的刑期又使出狱者回到贫困。模型每次"成功预测"都在加深它自己制造的困境。
各领域展开
大学排名与营利性大学
《美国新闻》排名发展为全美标准之后,各校开始像管理投资组合一样管理招生——每个申请者是一组资产和债务,目标是优化排名分项得分。保底学校开始拒绝那些历史上很可能被更好学校录取的申请者,因为这类学生接受录取的概率低,会拉低学校的选择率数字。这个逻辑本末倒置,但在排名逻辑下是理性的。
2014 年《美国新闻》全球大学排名中,成立仅两年的沙特阿卜杜勒阿齐兹国王大学(KAU)数学系排名第 7,超过剑桥和麻省理工。伯克利大学研究员利奥·帕赫特发现,KAU 向高被引数学家支付 7.2 万美元年薪担任客座教授(每年赴任三周),并要求他们将论文通讯地址改为该校——这正是排名算法中的关键参数。排名中的"学术声誉"变量被金钱直接购买。
营利性大学运作的是另一套模型。菲尼克斯大学、科林斯大学等机构用贝叶斯方法优化广告渠道,在招聘网站发布虚假职位,在大学理事会网站购买 SAT 注册学生信息,锁定处于困境中的人群——退伍军人、单亲妈妈、刚离婚的人、有药物成瘾史的人。翡特罗特学院(Vatterott College)的招生手册明确指示招生人员找到目标的"痛点"(pain point),并注明:"他们做出决定,更多基于情绪而非逻辑。痛苦是他们最大的驱动力。"科林斯大学每年营销预算 1.2 亿美元,追踪 240 万潜在客户,最终招到 6 万新生,年收入 6 亿美元;每个学生的平均营销费用 2225 美元,平均教育费用 892 美元。2014 年美国研究协会以近 9000 份虚假简历投送 7 个大城市,发现营利性大学文凭的职场价值与高中文凭相当,但学费比主流公立大学高 20%。破产时,科林斯大学学生的未偿还债务总计 35 亿美元,几乎全部来自纳税人,无法追回。
司法与再犯模型
LSI-R 量表的问卷涉及受访者的成长社区、朋友和亲属的犯罪记录、首次与警察接触的经历。这些变量在法庭上不被接受(辩护律师会立即反对),但以"科学算法"的形式出现时,它们获得了量化权重。纽约公民权利联盟 2013 年数据显示,14—24 岁黑人和拉美裔男性占"拦截-搜身"行动被拦截者的 40.6%,超过 90% 是无辜的。这些拦截记录和轻罪档案成为 LSI-R 的输入数据,推高量刑建议,延长刑期。
密歇根大学经济学家穆勒-史密斯研究了得克萨斯州哈里斯县 260 万份刑事案件记录,发现服刑时间越长,出狱后找不到工作的可能性越大,申请公共援助比率越高,再犯概率也更高。这直接质疑了"高风险者刑期越长社会越安全"这个假设——而 LSI-R 系统从未进行过这类核查。私营监狱市值 50 亿美元,满员时才能盈利,没有动力研究哪些因素能减少再犯。监狱系统只用数据反复证明现有系统的合理性,不追问系统的假设是否成立。
金融危机的模型机制
银行打包抵押贷款为债券时,依赖两个假设:顶尖数学家已充分评估风险;违约是随机不相关事件,分散化可对冲风险。标准普尔、穆迪、惠誉向出售债券的银行收取评级费,给明显有问题的产品打 AAA 评级。哪家评级机构给出低评级,就等于把收入拱手让给竞争对手——所以评级机构与银行达成了共同利益。2007 年底,次级贷款相关市场体量超过 60 万亿美元。数学能让谎言规模化,但无法逆转它——清理过程只能由人工完成,因为算法无法区分虚假承诺和真实资产。
就业筛选
克罗诺思(Kronos)等公司开发的人格测试被 60—70% 的美国企业用于招聘。艾奥瓦大学弗兰克·施密特分析近百年员工表现数据,发现人格测试的预测准确度只有认知测试的三分之一,远低于背景调查。但测试的实际功能是低成本批量排除申请者,而非寻找最优人选。
凯尔·贝姆因躁郁症历史被测试"亮红灯",被克罗格、终点线、家得宝等多家连锁店拒绝——全部是同类测试。他父亲是律师才追查到了原因并发起集体诉讼。大多数求职者既不知道被拒原因,也没有资源追诉。
圣乔治医学院 1970 年代的自动化招聘系统,用历史筛选记录训练算法,把人类筛选者对外国名字和女性申请者的偏见编入代码。1988 年英国种族平等委员会发现,每年有 60 名申请者仅因种族或性别无缘面试。系统从未"学坏"——它只是学会了人类历史数据里早已存在的歧视,并以更高的效率执行。
求职平台吉利德(Gild)发现,一批技术天才会经常访问某个日本漫画网站,并将这一行为模式纳入候选人评分。登录该类网站以男性为主——一位不看漫画的女工程师在模型中会因此丢分,与她的实际技术能力无关。
掠夺式广告与发薪日贷款
互联网广告模型通过关键词搜索、地理标签、点击行为识别处于困境中的用户:搜索"食品券"、点击发薪日贷款广告、居住在低信用评分邮政编码。这些信号组合成一个"脆弱"的档案,下一步就是把对应产品推送进去。
中子互动(Neutron Interactive)在招聘网站发布虚假职位,用收集到的求职者电话号码转卖给营利性大学,每个名字售价 85 美元。2015 年联邦贸易委员会发现,两家数据代理商非法出售 50 多万消费者的贷款申请信息(每条约 50 美分),导致受害者累计损失 710 万美元——平均每个账户 14 美元,但被盗的可能是那个贫困家庭账户里仅剩的一笔钱。
发薪日贷款平均年利率 574%,还款额约为借款额的 8 倍。ZestFinance 创始人梅里尔声称"所有数据都是信用数据",在 1 万个数据点中包括申请表是否正确使用大小写、申请人花了多长时间阅读合同。大小写使用习惯与受教育水平相关,受教育水平与阶级和种族相关——这条链条直接继承了历史上的不公平,以算法形式表达出来。
保险定价
好事达的定价系统建有 10 万个"微区段",不同区段的客户面对的保费差异最高为 800%,超出了基于风险定价的合理范围。美国消费者联合会发现,好事达的模型测量的是客户能接受的最高价格,而不完全是驾驶风险。
保险公司提供 GPS 追踪折扣项目,同意被追踪的司机可以得到保费减免,其余客户间接补贴这些折扣。数据积累之后,不参加追踪的客户在统计上的"不透明性"将被识别为风险因素,未来保费可能因此上升。奥尼尔的推断是:隐私将逐渐变成只有富人负担得起的奢侈品。
健康保险中的 BMI 指标由 19 世纪比利时数学家凯特莱为大规模人口统计而创建,与医学健康判断无关。企业健康计划用它惩罚员工:米其林要求员工血压、血糖等五项指标中不超过三项超标,否则每年多缴 1000 美元;CVS 要求员工上报体脂、血糖等,否则每年罚款 600 美元。加州大学洛杉矶分校法律教授霍维兹 2013 年的随机实验显示,吸烟和肥胖员工的高医疗费用大多发生在晚年,届时他们已退出公司健康计划,费用转由老年人医疗保险承担——健康计划节省的钱实质上来自克扣在职员工的薪酬。
政治微目标定向
奥巴马 2012 年竞选数据科学家伊德·加尼把超市消费者分析模型迁移到选民分析:通过深度采访数千人,建立价值观分组,在全美数据库中找相似档案,用 A/B 测试优化针对每个分组的宣传信息。"Hey!"标题的邮件打扰感最强但点击率最高,这是测试得出的结论,而非直觉判断。
脸书 2010 年和 2012 年"选举日实验"显示,带朋友照片的投票鼓励信息比不带朋友照片的版本更能促使人投票,整个运动共促进约 34 万原本不打算投票的人参与了投票。在 2000 年乔治·W·布什以 537 票差距赢得佛罗里达州的背景下,这一数量级足以改变选举结果。脸书 2012 年对 68 万用户的情绪实验(调整信息流中正负内容比例)证明平台能影响用户此后的发帖情绪;62% 的用户不知道脸书会过滤信息流,他们认为自己看到的就是所有朋友发布的内容。
剑桥分析公司分析了 4000 多万美国选民的五大人格特征(来自脸书点赞记录),为泰德·克鲁兹竞选团队设计差异化广告,并将广告投放范围精确限制在特定地点(如某场募款活动的酒店大楼内)。每个选民从不同政客那里收到专门针对自己设计的信息,彼此无从核对,对方看到的是什么,自己完全不知道。
奥巴马竞选团队的模型将 1500 万摇摆选民识别出来,并为每个选民建立包含多维评分的档案(环境议题关注度、社保关注度、动员意愿等)。这些档案与亚马逊和网飞的用户档案在结构上相同:通过数据预测行为,通过信息推送影响行为。
WMD 的系统效应
奥尼尔描述了各个 WMD 在穷人生命周期中的交叉作用。贷款历史产生信用记录,电子评分把信用差的人识别为"高风险",掠夺式广告精准投放,营利性大学用高息贷款打包成"教育机会";毕业后文凭无用,求职时人格测试和信用查询两道门关上;被捕后再犯模型加长刑期,出狱后回到原来社区,循环继续。这些 WMD 不是独立运作的,它们共享数据,互相喂养。
在另一个方向,富人收到的是:精英大学申请咨询(1.6 万美元起的训练营)、优质信贷、个性化服务、专业律师。同一套建模逻辑在两个方向上运行,只是目标函数不同——对穷人,目标是提取最大化收入;对富人,目标是提供个性化服务。
奥尼尔引用 2015 年数据:美国白人家庭的平均财产是黑人家庭和拉美裔家庭的 10 倍。超过三分之一的黑人和拉美裔家庭没有储蓄。WMD 放大了这一差距,而不是纠正它。
奥尼尔提出的对策
建模者的希波克拉底誓言:由金融工程师德曼(Emanuel Derman)和威尔莫特(Paul Wilmott)草拟——明确模型的假设和忽略的因素,不夸大精确度,承认潜在的社会影响。奥尼尔认为这是必要出发点,但仅靠个人自律不够,因为数据科学家受雇于机构,面对具体的绩效压力。
算法审计:普林斯顿大学"网络透明和问责项目"用软件机器人扮演不同身份(富人/穷人、黑人/白人),探测自动化系统的差别对待。ProPublica 的"短信机器"通过众包逆向解析奥巴马竞选团队的微目标模型,让公众知道哪些名人背书被推送给哪些人群。审计的方法是把 WMD 当作黑盒,研究输出结果的分布,从中拼凑出潜在的假设。
法规更新方向:
- 《公平信用报告法》和《平等信用机会法》需扩展覆盖新型电子评分系统,消费者有权知晓和纠正影响自己评分的数据
- 《美国残疾人法案》需将健康评分和基因预测纳入保护范围
- 参考欧洲"不可重复使用"条款:禁止将用户数据转售给数据代理商,斩断个人信息的二级市场
重新定义成功标准:奥尼尔用两个模型说明同样的技术可以朝相反方向使用。米拉·伯恩斯坦为非营利组织"自由世界生产"建立的供应链奴役探测模型,帮助企业识别并消除强迫劳动——模型只指向可疑之处,问题的确定和解决由人类完成,有明确的错误反馈机制。Eckerd 儿童服务机构的虐待风险预测模型(佛罗里达州希尔斯伯勒县),目标是为高风险家庭提供帮助,而不是惩罚父母——模型启动后两年内,该县没有再发生虐待儿童致死案件。两个模型都做到了同一件事:以减少伤害为目标,有外部审查,接受反馈修正。
一个分析工具
奥尼尔在书中给出了一套对任何预测模型都适用的拆解路径,以下是从全书提炼的问题集:
- 透明度:模型的输入变量和权重是否公开?被评估者是否知道他们处于评估之下?
- 建模者的目标:建设者想优化什么?谁是实际受益方?优化目标和模型声称的目标一致吗?
- 替代变量:模型用什么代替了直接测量?替代变量和被测目标之间的关联是否经过独立验证,还是只是相关性?
- 反馈回路:模型的错误判断是否会被记录并用于修正模型?如果没有,错误将向哪个方向累积?
- 规模化后果:如果这个模型成为行业标准,集体遵循会产生什么扭曲效应?(《美国新闻》排名成为标准后,学费上涨5倍、保底学校消失、SAT培训产业崛起,这些都不在原始模型的预期内。)
- 损害分布:误判带来的成本由谁承担?这个人群是否有渠道申诉或反馈?
奥尼尔在书的末尾写道:大数据程序只能将过去编入代码,而不会创造未来。创造未来需要道德想象力,而想象力只有人类才有。这是对"算法客观性"这一幻觉最直接的拆解——算法继承历史,历史本来就有偏差,规模化只是把偏差的影响放大了。