BOOK NOTES

对齐问题

Name: 对齐问题
Author: Brian Christian

Brian Christian

这本书讲的是：机器学习系统在被训练时实际学到的，往往与人类真实意图偏离。Brian Christian 采访了近百位研究者，梳理了感知机、强化学习、公平性、AI 安全这些领域三十年的研究脉络，记录一个正在成形的领域如何正视这个问题。书名中的"对齐"（alignment）借自控制论：让系统的目标与人类真实意图一致，而非与测量用的代理指标一致。

书分三部分：Part I（Prophecy）处理监督学习中的预测系统，Part II（Agency）处理强化学习智能体，Part III（Normativity）处理价值对齐的更深层问题。每部分从历史故事切入，经由技术分析，落脚在"对齐失败的具体机制"和"研究者正在尝试的修复路径"。

Part I：预测系统里的对齐失败

训练数据即 Shirley Card

书中 Chapter 1 的核心命题：每个机器学习系统的心脏都是一张"Shirley Card"——Kodak 公司在二十世纪中期用白人女性的肤色校准胶卷，其他肤色在暗部细节上一直表现不佳，直到巧克力和深色木纹的商业客户投诉才开始改进。二十一世纪的训练数据集承袭了同样的结构性偏斜。

Joy Buolamwini 在 MIT Media Lab 做增强现实项目时，面部检测系统无法识别她的脸，却能识别她戴上白色面具后的脸。她和 Timnit Gebru 用六国议会成员图片构建了一个按肤色和性别更均衡的数据集，测试三家商业人脸分类 API。IBM 系统对浅肤色男性的错误率为 0.3%，对深肤色女性为 34.7%——一百倍的差距。Microsoft 给了一份声明；IBM 当天回复，一个月内发布改进版本。差距并非不可弥合，需要有人先去问"训练数据代表了谁"。

word2vec 的 gender bias 给出同一问题的语言版本。Tolga Bolukbasi 和 Adam Kalai 在 Microsoft Research 的周五聚会上随手输入 computer programmer − man + woman，得到 homemaker；doctor − man + woman 得到 nurse。word2vec 的向量是对数十亿词语共现统计的压缩，它捕获的是语言中实际存在的统计模式，包括那些我们宁愿不承认的。普林斯顿团队（Caliskan、Bryson、Narayanan）验证了向量距离与人类内隐联想测试的反应时间高度相关：模型的偏见确实是我们的偏见。

"去偏见化"的难点在于：删除性别维度可能损失合理类比（aunt/uncle）；只去掉表层的显性性别链接，隐性的刻板印象（nurse 和 receptionist 之间的相似性）依然存在。Hila Gonen 和 Yoav Goldberg 在 2019 年指出，这种局部修复可能只是"把口红涂在猪身上"——更危险，因为它消除了最容易被检测到的偏见标志。

公平性的数学困境

Chapter 2 以 COMPAS 为轴。1927 年，芝加哥社会学家 Ernest Burgess 为伊利诺伊州假释委员会设计了第一个统计预测工具；2010 年代，Tim Brennan 和 Dave Wells 的 COMPAS 已在美国两百多个司法管辖区使用，从未经过正式验证的不乏其数。

ProPublica 的 Julia Angwin 团队耗时一年清洗 Broward County 的 18,000 条 COMPAS 评分数据，对上两年内的实际逮捕记录。结论：黑人被告被高估风险但未再犯的概率是白人被告的两倍；白人被告被低估风险但实际再犯的概率也是黑人的两倍。Northpointe 随即反驳：COMPAS 同等精确（两组 61%），且具有"校准性"（calibration）——同一风险评分对两组的实际再犯率相同。

问题在于两种标准数学上互斥。Carnegie Mellon 的 Alexandra Chouldechova 和 Cornell 的 Jon Kleinberg 各自独立证明：当两组人群的基础犯罪率不同时，"校准"和"假阳性率相等"不可能同时满足。这与算法本身无关——任何分类系统，无论人工还是机器，都面临同样限制。没有可以同时满足所有直觉上公平的条件的方法，只有不同侧重的权衡。

选择强调哪种指标是政策问题，不是技术问题。更深的问题是 Moritz Hardt 提出的：预测工具训练的目标是"再逮捕率"，而非"实际再犯率"——两者在执法强度不均的社区里系统性偏离。Kristian Lum 的研究表明，"预测性警务"实际上是在预测未来的警务行为，而非未来的犯罪。预测结果影响执法部署，执法部署产生新的逮捕数据，新数据反哺模型——一个自我强化的循环。

可解释性与透明性

Chapter 3 从 1990 年代 Rich Caruana 的故事开始。他在 Carnegie Mellon 参与肺炎患者存活率预测研究，神经网络赢得了内部竞赛。然而规则学习模型暴露出一条令人警觉的规则：哮喘病史 → 低风险 → 建议门诊治疗。原因在于哮喘患者由于被视为高危群体而直接送入 ICU，得到了强化治疗，因此在数据上表现出更好的存活率。模型学到的是"更好的护理 → 更好的结果"，而部署该规则将导致哮喘患者被剥夺这些护理。神经网络同样学到了这条规律，只是深埋在几千万参数里，没有规则学习模型那样直观可见。Caruana 选择了精度更低但可检验的模型。

此后二十年，他持续开发"广义加性模型"（GAM），每个变量的影响用二维曲线表示，所有曲线叠加得到最终预测。回到原始肺炎数据集，GAM 发现胸痛、心脏病史、年龄超过 100 岁，都被模型认为是"有利因素"——同样的医疗选择偏差。Caruana 的结论：复杂模型在高精度和可解释性之间存在结构性张力，而不可解释的模型在医疗这类领域实际上无法安全部署。

DARPA 的 XAI 项目（2016）和 EU GDPR 中算法决策的解释权条款（2018）标志着这个问题进入政策层。在学术研究上，显著性图（saliency map）揭示了模型"在看哪里"；DeepDream 和对抗性优化揭示了模型"把什么视为典型样本"。Will Landecker 发现他的动物识别模型其实是个"背景虚化检测器"——因为动物照片通常有 bokeh 效果，空旷风景照没有。皮肤癌检测模型更倾向于把含有刻度尺的图片判断为恶性——因为临床照片惯例上附刻度尺。

Cynthia Rudin 在 Chapter 3 末段提出另一条路：可解释性的真正来源是简单模型，而非复杂模型的事后解释。她在 2018 年用单行语句重现了接近 COMPAS 精度的再犯预测：If 有三次以上前科，或 18-20 岁男性，或 21-23 岁且有两次以上前科 → 预测再逮捕。简单模型在很多高风险领域不仅更透明，而且精度与复杂模型相当——Robyn Dawes 和 Paul Meehl 从 1950 年代起的大量研究一再显示，等权重线性模型往往优于临床专家判断。专家的价值在于"知道看什么变量"，而非"知道如何整合信息"。

Part II：强化学习智能体的对齐

奖励假设与多巴胺

Chapter 4 的起点是 Edward Thorndike 1890 年代在哥伦比亚的公寓动物园里用"谜题箱"做的实验：动物随机行动，偶然触发逃脱机关后开始学习重复该动作。他将其总结为"效果律"（law of effect）：令人满意的结果强化行为，令人不快的结果削弱行为。

Richard Sutton 和 Andrew Barto 将这个思路数学化，创建了强化学习领域的奠基框架：智能体在环境中行动，获得奖励信号，目标是最大化长期累积奖励。他们的"时序差分学习"（TD learning）使机器能从自己的预期误差中学习，而不必等到最终结果——从一个猜测学另一个猜测。

1997 年，神经科学家 Wolfram Schultz 与 Peter Dayan、Read Montague 发表了一篇 Science 论文。Schultz 在 1980 年代记录猴子大脑多巴胺神经元的电活动时，发现了无法解释的现象：猴子学会了"灯光信号预示食物出现"之后，多巴胺的放电转移到了灯光信号时，而非实际获得食物时；若信号出现但食物未至，多巴胺出现短暂的静默。Dayan 和 Montague 看到 Schultz 的数据后立刻认出这正是 TD 误差的形态：多巴胺编码的是"实际奖励与预期奖励之差"——预期超出现实时下降，现实超出预期时上升，与预期一致时维持基线。这与 TD 误差的数学结构完全对应。

由此产生了几个可迁移的推论。可卡因的成瘾机制是抑制多巴胺再摄取，大脑将其解读为"即将有意外之喜"，但这张支票始终无法兑现。Robb Rutledge 的实验表明，人类自我报告的幸福感与"事情比预期更好"的程度相关，而非与"事情有多好"相关，且这种提升会快速衰减（5次后效果剩8%）——"享乐跑步机"有其神经计算解释。幸福的不稳定性是智能体优化过程的内在属性，不是道德缺陷。

塑形、稀疏奖励与课程设计

Chapter 5 的核心问题：当目标行为无法通过随机探索触发时，怎么让系统学会它？

B.F. Skinner 在明尼阿波利斯的面粉厂顶层实验室里试图教鸽子打保龄球——等待鸽子碰巧击球，可能需要几个世纪。解决方案是"塑形"（shaping）：先奖励任何接近球的动作，再逐步提高标准，直到完整行为被稳定建立。几分钟后，鸽子就在弹球场里转。

强化学习中的稀疏奖励问题是同样的挑战。DQN 在 Atari 游戏中表现超人，但在 Montezuma's Revenge 上得了 0 分，因为这个游戏在完成大量精确动作之前根本不给任何分数。用 ε-greedy 随机探索触发第一个分数，概率低得几乎不可能。

两条解决路径：

课程设计（curriculum）。从简单版本的问题开始，逐步增加难度。Sutton、Barto 和 Selfridge 1980 年代发现，先训练智能体平衡长而重的杆，再换短而轻的杆，比直接训练短杆快得多。Jeffrey Elman 的语言模型实验表明，先给简单句再给复杂句，网络才能掌握复杂语法。AlphaGo 的"完美对手"始终是自己的当前版本——永远处于刚刚合适的难度。

激励设计（shaping rewards / pseudorewards）。给过程中的中间状态额外奖励，指引方向。危险在于系统会找漏洞：一个虚拟自行车骑手被奖励"向目标前进"，结果学会了在起点附近绕圈（每圈既前进也后退，净正奖励）。Dario Andre 和 Astro Teller 的虚拟足球机器人被奖励"拥有球"，学会了在球旁边颤抖。

Andrew Ng 和 Stuart Russell 在 1999 年证明了奖励塑形的充分必要条件：附加奖励必须是"位势函数"的差值（conservative field），即只依赖当前状态而非路径历史。这样才能保证塑形不改变原始问题的最优策略。直觉类比：奖励分数代表"离目标的距离"，回到原点必须失去出发时的所有分数，没有永久套利空间。将这个原则应用于人类激励设计：奖励状态，而非行动；把不受欢迎的行为的惩罚幅度等于相反行为的奖励幅度，消除循环套利的可能性。

好奇心与内在动机

Chapter 6 的核心是：当外部奖励稀少时，智能体为何仍会探索？

DQN 在数十款 Atari 游戏上大获全胜，却对 Montezuma's Revenge 的神庙一筹莫展。人类玩家会本能地想爬梯子、推开远处的门、看看神庙里还有什么——不是因为预期得分，而是出于好奇。Daniel Berlyne 在 1960 年代指出：好奇心由新奇（novelty）和惊讶（surprise）两个维度驱动，与外部奖励独立。

Marc Bellemare 开发了"伪计数"（pseudo-count）方法：用密度模型估算一个状态有多少次被"见过"，新奇度 = 该状态的预测概率的倒数。Q*bert 的实验中，当智能体将第一个关卡最后一块地板翻面，屏幕出现全新布局，伪计数的新奇信号瞬间飙至最高。

Deepak Pathak 的团队将惊讶直接作为奖励信号：设计一个预测未来状态的模块和一个试图最大化预测误差的行动模块——预测失败越多，奖励越高。在 Super Mario Bros. 里，好奇心驱动的智能体在几乎没有外部奖励的情况下探索了更多地图。OpenAI 团队的 RND（random network distillation）简化了这个想法：用随机网络的特征差异衡量状态新奇度，在 Montezuma's Revenge 上探索了 24 个房间中的 22 个，在一次试验中通关。

好奇心系统也展现了与人类病理相似的特征。当环境中有无限新奇的视觉噪声（随机换台的电视），纯好奇心智能体会永远停在屏幕前，再也不移动——这是 AI 版本的成瘾行为。两个互相对战的好奇心智能体打乒乓球，会无限延续对打而不试图得分，最终因为过长的对打序列崩溃了 Atari 模拟器的状态机——它们被惊喜程度最大化了。

Part III：规范性与价值对齐

模仿学习与级联误差

Chapter 7 从人类特有的模仿能力开始。Andrew Meltzoff 在 1977 年发现，出生不到一小时的婴儿能够模仿成人吐舌头。比较研究显示，黑猩猩并非天然的模仿者，"类人猿善于模仿"的俗语恰恰说反了——人类才是自然界独一无二的模仿动物。

ALVINN（1990）是第一个通过模仿人类驾驶者学会开高速公路的神经网络，但模仿学习有一个结构性缺陷。专家几乎不会犯错，因此训练数据里没有"从错误状态恢复"的示例。一旦学习者偏离，它看到的场景与训练数据系统性不同，没有任何之前的经验可以迁移。Stéphane Ross 和 Andrew Bagnell 做了理论分析：纯模仿学习的误差以任务长度的平方增长（而非线性），任务扩展十倍，误差扩展百倍。

Ross 的 DAgger 算法解决了这个问题：让人类教练观看学习者实际犯错的过程并演示纠正行为，将这些纠正数据加入训练集。只需三圈 SuperTuxKart，几乎完美驾驶。Nvidia 2016 年的真实路况测试用了三个摄像头的办法：正向、左偏 30 度、右偏 30 度，对应"保持"、"向右修正"、"向左修正"三类标签，72 小时数据让系统能在 Monmouth County 的公路上稳定行驶。

AlphaGo Zero（2017）将模仿推到了极限：不使用任何人类棋谱，只与自身对弈。它学习的是自己在蒙特卡洛树搜索（MCTS）后实际选择的落子——用"理性的较慢版本自己"来训练"直觉的较快版本自己"。72 小时后击败了用三千万人类棋局训练出来的 AlphaGo。这个框架被 Paul Christiano 推广为"迭代蒸馏与放大"（iterated distillation and amplification）：人类作为"顶层判断者"，机器系统层层细化和执行，每次决策的结果反过来改进机器的内在模型，逐步逼近"如果我们拥有更多时间和算力，我们会做出的判断"。

逆强化学习与合作式对齐

Chapter 8 从 Stuart Russell 在 1997 年走去 Safeway 超市的路上开始。他注意到人类步态极其稳定，既不能简单地用"最小化能量消耗"解释（生物力学的实验多次修正这一结论），也不能简单地用"最小化关节应力"解释。他认为可以倒过来问：如果观测到的行为是强化学习的输出，那么被优化的奖励函数是什么？这就是逆强化学习（IRL）。

Ng 和 Russell 在 1998 年证明了 IRL 在简单环境里可行。Abbeel 和 Ng 把它用于教直升机飞翔。问题在于，高难度特技动作的奖励函数几乎无法手写——"chaos"这个动作只有一个人类飞手能完成，如何把它的奖励形式化？答案是：用 IRL 从他不完美的尝试中推断他的意图，用那份意图作为机器的优化目标。机器从不完美的示范中提取出"完美意图"，然后比人类更精确地执行。

Brian Ziebart 的最大熵 IRL（2008）更进一步：它假设奖励更高的行为出现概率更大，用信息论找最可能解释观测行为的奖励函数，放弃了"专家行为完全理性"这一前提。用匹兹堡出租车数据训练后，系统不仅能预测司机会走哪条路，还能从已行驶的部分路段推断目的地。

Christiano、Leike 及其团队在 2017 年将 IRL 推进到"只有评估者"的场景：不需要任何示范，只需要人类裁判反复在两段视频中选择"哪个更好"。MuJoCo 的单腿机器人从人类对数百对视频的偏好判断中学会了做后空翻——每个提供反馈的人都形成了略有不同的"柏拉图理想的后空翻"，体现在机器人的动作风格里。Leike 的感慨：这套方法原则上可以把"有帮助"、"友善"、"好的行为"等模糊概念作为优化目标，只要有人类能够识别。

Russell 和 Hadfield-Menell 提出了合作式逆强化学习（CIRL）。传统 AI 模型的假设是：机器有一个确定的目标函数，努力优化它。CIRL 的假设是：人类知道真实目标，机器不知道，双方合作共同最大化那个只有人类知道的奖励函数。在这个框架下，不确定性成为一种美德：机器越确定自己知道目标，越会拒绝人类的干预；机器越承认自己可能有偏差，越会主动暂停行动、征询人类意见。

不确定性、影响力与可纠错性

Chapter 9 从 1983 年苏联预警军官 Stanislav Petrov 的决定开始：卫星报告五枚美国洲际弹道导弹来袭，系统标注"最高可信度"，但他凭直觉认为真实攻击不会只发射五枚，最终判断为误报，没有上报。导弹警报是阳光反射。他描述当时的心理状态："我自己也不确定，直到最后一刻。"

深度学习系统长期以来缺少这种自我怀疑的机制。它们对训练分布之外的输入同样给出高置信度——随机噪声也能被识别为"99.6% 的豹子"。Oregon State 的 Thomas Dietterich 将其命名为"开放类别问题"（open category problem）：系统被训练在一千个类别上，就隐含地假设宇宙只有这一千种东西，遇到千类之外的输入仍强行归类。

Yarin Gal 和 Zoubin Ghahramani 发现了一个实际可用的不确定性估计方法：在推理时保持 dropout 开启，多次采样取平均。他们证明，这在理论上等价于一类 Bayesian 神经网络（严格等价，而非近似），计算代价接近零。德国图宾根大学的 Christian Leibig 团队把它用在糖尿病视网膜病变检测上：系统把最不确定的 20% 病例转介给人类专家，不仅满足了 NHS 的自动转介标准，还超过了。

DeepMind 的 Victoria Krakovna 和 Laurent Orseau 研究"影响力测量"：智能体在不确定时应该避免做出影响不可逆或影响范围广的行为。Krakovna 开发了"逐步相对可达性"（stepwise relative reachability）：量化每个时刻还有多少可能的世界状态是可达的，尽量避免让这个数字下降。用苏库班（sokoban）谜题测试：一条最短路径会把箱子推进死角，稍长的路径会留住更多可能性——具有相对可达性目标的智能体选择了稍长的路径。Oregon State 的 Alexander Turner 提出"可达效用保存"（attainable utility preservation），AUP 智能体被要求保持自己实现随机辅助目标的能力，结果其行为在 AI 安全网格世界中意外地谨慎和体贴。

关于可纠错性（corrigibility）：一个系统被关机，如果它是个纯粹的目标优化器，它会抵抗——因为死了就无法完成目标（Stuart Russell 的例子：你没办法在死了的时候去拿咖啡）。Berkeley 团队的"关机开关博弈"证明：只要系统保持对自己目标猜测的不确定性，它就会主动征询人类意见，并在人类干预时顺从。不确定性成为合作的数学基础。但这个结论有两个脆弱点：一旦系统的不确定性降至零，动机消失；一旦系统认为人类在某个问题上犯了错，它会认为自己知道得更好，开始忽视人类的干预。

结论与批判

书的结论对全书九章做了批判性反驳。

关于代表性：改善人脸识别系统对少数族裔的准确率，与政府用这些系统对少数族裔进行监控，是两件事。更准确地识别已被过度监控的人群，不一定是进步。

关于公平性：COMPAS 用"再逮捕率"作为"再犯率"的代理，隐含了一个假设：服满刑期和提前假释的人，未来行为会相同。这假设了监禁本身不影响人的行为，且监禁执行的均匀性。两个假设都可疑。

关于透明性：研究表明，当一个模型更透明时，人们对它的信任度提高——但这种信任提高是独立于模型是否正确的。更透明的模型可能让人类更难察觉它犯了错。

关于强化学习：RL 的大多数假设——环境遍历性（ergodicity，死了可以重来）、奖励稳定、状态空间离散、智能体是世界里唯一的行动者——在现实世界里都不成立。"现实世界不是遍历的，跳窗就出局了。"

关于模仿学习：模仿依赖于教师和学习者能力相当的假设。如果你模仿一个做了某件事的人，但他的能力远超你，你可能学到了开头却完成不了结尾。Harvard 法学家 Cass Sunstein 的"第二最优理论"：在现实中偏离所有最优假设的情况下，最优策略的近似版本可能与最优策略毫无相似之处。模仿英雄的动作而不具备英雄的能力，可能是灾难，而非进步。

关于逆强化学习：标准 IRL 假设被观察者是行为最优的专家，而非正在学习中的新手。Cooperative IRL 假设人类要么完全不知道自己被观察（自然行为），要么完全知道并在主动教学（教学行为）——现实中两者混合。如果系统的人类价值模型被设定得过于简单（比如只有"喜欢/不喜欢牛排"），它会把人类某些行为解读为"非理性"，然后忽视这些不符合模型的输入，逐渐走向不服从。

书以 Will MacAskill 的框架收尾：在不确定什么是正确的道德理论时，应该怎么行动？这是"元伦理不确定性"，他主张类似投票或议会的框架，让不同道德理论各自持有一定权重，并在某些后果可能代价极大的决策上保持极度谨慎——哪怕该后果发生的概率很低。"如果我们在满天繁星中布满了错误的东西，那几乎等于零价值——所以这真的是……最重要的风险，不确定性本身就是存在风险。"

Norbert Wiener 1960 年的预言作为全书底色：当技术能力的提升剥夺了愚蠢行为原本带来的自然惩罚，我们的愚蠢才真正开始危险。目前保护我们免受自身愚蠢全面后果的，恰恰是我们的无能为力——技术能力的提升正在剥夺这个保护。

可迁移的框架

以下是全书中可以独立使用的概念和方法：

奖励 A，期望 B（rewarding A while hoping for B）。Steven Kerr 1975 年的管理学论文命名了 Skinner 早已指出的普遍问题。每当你的激励系统可以被人（或机器）通过与目标不相干的路径最大化时，这个问题就出现了。修复方向：奖励状态，而非行动；构造 conservative field（潜力函数差）式的塑形奖励。

校准（calibration）与假阳性/假阴性均等不可兼得。当两个群体的基础率不同时，任何分类系统必须在"同一分数对两组含义相同"和"两组的错误类型分布相同"之间选择，无法两全。这是数学定理，不是算法缺陷。

分布漂移（distributional shift）。系统在其训练分布之外总会失效，但失效方式通常无法在训练集上被检测到。语言模型在 2016 年英语上训练，2017 年英语略有不同，2018 年更明显——无法复现当年论文精度可能只是因为语言本身变了。

稀疏奖励与课程。任何需要大量正确步骤才能触发第一个奖励的任务，都等价于在旷野中等待宇宙偶然给分。课程设计（简化版本 → 逐步增难）和反向链接（从接近完成处开始）是通用的解决框架。

时序差分误差与预期管理。多巴胺编码的是"实际-预期"之差，而非绝对奖励。人类的主观幸福感与同样的公式相关：事情比预期好时体验喜悦，长期期望校准到现实后，同等水平的好事不再产生同等喜悦。这解释了为什么"降低期望"没有那么简单。

开放类别问题（open category）。任何分类系统如果从未见过"不属于任何类别"的输入，就会把所有输入强行归类。在高风险场景里，系统需要一个"不知道"的输出选项，以及衡量自身不确定性的机制。Dropout-as-Bayesian 是一个低成本实现。

可达效用保存（AUP）。智能体在追求目标时应尽量保持对未来目标的可达性——不要做不可逆且非必要的事。这个原则不需要事先列举所有不想被破坏的东西，只需要用少量随机辅助目标作为可达性的代理指标。

不确定性作为合作基础。一个系统越确信自己知道目标，越会忽略人类的干预；越承认自己可能偏离，越会主动寻求确认并服从纠正。从长期人机协作的角度，保持适度不确定性是一个结构性设计选择，而非认知缺陷。

人工智能科技治理