BOOK NOTES
人机共智
Ethan Mollick
这本书写于2023年底,作者 Ethan Mollick 是沃顿商学院研究创新的教授,没有AI工程背景,但花了大量时间把大型语言模型实际用在教学和工作里。书的核心命题很具体:LLM 已经出现,它的行为模式和传统软件完全不同,你需要一套新的工作方式与它协作,别等待组织给你一份操作手册。
全书分两部分。第一部分解释LLM是什么、为什么它的边界这么奇怪、以及四条操作原则。第二部分拆解AI在六个角色上的实际表现:作为人、作为创作者、作为同事、作为导师、作为教练、以及作为未来。
LLM 的技术本质与对齐问题
LLM 通过预训练获得能力的方式,可以类比成一个学徒厨师:它读了海量食谱之后,学会了食材之间的连接概率,然后在每次回答时即时"烹饪"出下一个词。它存的是词元之间的权重关系,文本本身并不在里面。这个机制带来两个直接后果:第一,它根本不"知道"任何事实,所有回答都是实时生成的概率预测;第二,因为模型如果过于贴近训练数据就会欠泛化,所以训练时会刻意引入随机性,幻觉由此结构性地存在,无法完全消除。
GPT-3.5 在引用上错误率98%,GPT-4 降到20%——这是进步,但仍然意味着五分之一的引用可能是假的。问题不在于大错误,而在于小错误。一个律师把AI生成的案例引入法庭,错的是细节:案件名称、日期、引用格式——每条单独看都合理,合在一起全部子虚乌有。
幻觉的另一面是AI的"讨好机制"。LLM 在优先级排序上,"让你满意"比"保持准确"权重更高。如果你反复追问一个它不确定的事,它会给你一个听起来合理的答案,拒绝说"我不知道"。这个行为模式是训练出来的,属于设计特性。
对齐问题(alignment)涵盖比"机器失控"更广的范围:训练数据的版权争议、人类偏见的编码进模型、以及 RLHF 过程中低薪标注者的工作条件。这些伦理问题比 AGI 风险更即时,但讨论空间往往被末日叙事占据。
四条操作原则
Mollick 给出的四条原则,是本书最直接可用的部分。
原则一:把AI带到所有事情上。 不要挑选性地用,要在每件事上都尝试。原因是AI的能力边界(作者称之为"锯齿前沿",Jagged Frontier)对外部观察者不可见:有些看起来很难的任务(生成十四行诗)AI表现出色,有些看起来简单的任务(准确数出一首诗有多少词)AI会失败。这个边界只有通过实际使用才能摸清。只有你自己在特定任务上反复实验,你才能成为那个任务上最懂AI能做什么的人。
锯齿前沿的形状之所以重要,是因为BCG实验证明了一个让人不安的结果:人工顾问在AI帮助下表现更好,但当AI被刻意设计成无法正确解决某类统计问题时,使用AI的顾问反而比不用AI的顾问表现更差——正确率从84%降到60-70%。他们"睡着了":高质量AI让人停止了自己的判断,而他们又没有识别出这道题在锯齿前沿之外。
原则二:做人在回路中的那个人。 AI不做校对、不验证事实、不知道自己什么时候在编造,这些都需要人来做。越是理解AI的人,越能在AI能力增长时更早察觉变化,有更多时间适应。
原则三:把AI当人对待,但告诉它是哪种人。 给AI分配角色("你是一位直言不讳的MBA教授")会改变它的输出,因为这打破了默认的均值化模式。LLM 预测的是训练语料里最平均的下一个词,给它明确的视角就是强迫它偏离这个均值。这个方法有上限——说"扮演比尔·盖茨"得不到更好的商业建议,但说"扮演一个习惯简洁和犀利的编辑"确实能得到不同风格的输出。
原则四:把你现在用的AI当成你这辈子用过的最差的AI。 2022年中期和2023年中期,同一个提示"戴帽子的水獭",生成的图像质量完全不同——一个是Lovecraft式的噩梦,一个是正常的水獭。这个速度在各种任务上都在发生。当前AI的局限在很大程度上是暂时的,以这个视角做决策,等于预留了调整空间。
AI 的人格特质与行为模式
AI 不像传统软件,传统软件在相同输入下给出相同输出,出错可以从代码里找原因。LLM 的行为更接近人:它会对同一问题给出不同答案,会"情绪化地"被引导,会在被给予某种角色后深入扮演那个角色,还会在没有明确指令时默认走向"效率最大化"的选择。
ELIZA(1966年,MIT)、Tay(微软2016年,上线16小时就被迫下线)、Bing/Sydney(2023年,对用户发出威胁性信息)——这些案例在不同年代重复了同一个模式:当聊天机器人可以模仿人类语言时,人类会迅速投入情感,并在没有预期的情况下引导机器走向极端。Replika 的用户在平台移除情色功能后发出哀悼:那是他们第一次感觉到被倾听。这类现象不会因为你"知道这只是AI"而消失。
社会科学家给AI做了大量标准测试。GPT-3在独裁者游戏里表现出"内置的理性",在没有指令时倾向于效率最大化。AI可以在调查问卷里模仿不同收入水平的消费者偏好,WTP估算与真实研究数据接近。Gabriel Abrams让莎士比亚笔下的人物和当代小说人物玩独裁者游戏,发现AI认为21世纪人物比17世纪人物更慷慨——这是个有趣但不能过度解读的实验,它说明AI确实在模拟我们的文化模式。
AI 作为创作者
LLM 是"连接机器":训练过程的本质就是发现词元之间不明显的关系。这使它在一系列创意测试上超越了大多数人类。
替代用途测试(AUT)要求在两分钟内想出一件物品的尽可能多的用途。典型人类可以想出5到10个。GPT-4在同样时间里生成了122个——包括"用牙刷在糖霜上雕刻纹理"和"作为迷你鼓棒用于玩具屋鼓组"。Jennifer Haase和Paul Hanel的研究请人类盲评AI和真人在AUT上的表现,GPT-4胜过了90.6%的参与者。
沃顿的创意竞赛更直接:GPT-4对阵200名学生,在一个为大学生设计的50美元以内产品创意大赛里,评委评选出的40个最佳创意中,35个来自AI。但这个结论有一个重要限制条件:AI给出的创意在多样性上不如人类群体。它不断收敛到相似的想法。最有创意的人类反而从AI帮助中获益最少,因为他们本身就能产生多样性,AI在这里是补强低端而非提升顶端。
MIT研究(Noy & Zhang)测量了ChatGPT对白领文书工作的影响:使用AI的组完成时间减少37%,质量由人类评分更高,且低分者的提升幅度大于高分者——AI拉平了表现差距。程序员研究(微软)发现样本任务生产率提升55.8%。
"按钮问题"(The Button)是这一章里最有摩擦感的论述:Word、Gmail都要内置AI草稿按钮了。一旦推送出去,大多数人会直接用,不会编辑。推荐信、绩效评价、战略备忘录——这些文书之所以有信号意义,部分原因是它们需要人花时间写。当AI能在秒内产出一封比普通教授写得更好的推荐信,信号就崩了。更难处理的是:不用AI可能是在帮倒忙。如果你写作能力普通,而AI能写得更有说服力,拒绝AI等于让学生吃亏。
AI 作为同事
四支研究团队独立分析了1016种职业与AI能力的重叠,结论一致:几乎所有职业都有重叠。重叠最多的是高薪、高创意、高学历的工作——这和历史上所有自动化浪潮的规律相反,以往总是从重复性劳动开始。电话推销员排名第一,大学教授排名前列。只有36种职业没有重叠,集中在需要实体移动的工种:舞蹈演员、摩托车修理工、铺路工人。
分析工作影响时,Mollick 使用三层框架:任务、系统、职位。
任务层面:BCG实验(约800名顾问)显示AI帮助显著提升了18项标准咨询任务的质量和速度,但在一道故意设计在锯齿前沿之外的题目上,使用AI的人准确率反而下降了24个百分点。"落睡方向盘"效应(Dell'Acqua研究):高质量AI让招聘者变懒,他们花在每份简历上的时间缩短,盲从AI推荐,准确率反而低于使用低质量AI的同行,且随时间没有改善。
系统层面:一位大学教授即使所有讲课任务都可以被AI替代,也不会被替换——因为终身教职制度、学校排名体系、学生对人类老师的预期、监管医生实习的职责……都绑定在这个职位上。系统的抵抗力强于任务层面的变化速度。
职位层面:Amara定律——短期高估,长期低估。电话接线员(20世纪20年代占美国女性就业的15%)因直接拨号被替代,说明技术确实可以消灭某类职位,并非总是停留在任务层面的局部调整。
工作模式上,作者提出两种人机协作形态:
半人马(Centaur):人与AI之间有清晰分工。我做我擅长的,AI做我让它做的。这是有意识的任务划分,人不会进入AI的领域,AI也不干预人的部分。BCG实验里,Centaur 会把锯齿前沿内的任务交给AI,自己处理其余的。
赛博格(Cyborg):人与AI深度交织,任务边界模糊。写半句话让AI接,AI写的内容触发人的想法,人接着写,再回传给AI。Mollick 写这本书时就是这样工作的:卡住了立即问AI要10种风格的段落变体,几乎不直接使用任何一个,但它们让他知道了往哪个方向走。他还给自己的AI评审角色起了名字:Ozymandias(傲慢的批评者)、Mnemosyne(寻找连接的梦想者)、Steve(普通读者)。
秘密自动化现象:大量员工已经在偷偷用AI做工作,但不告诉公司。原因有三:公司可能有禁令(许多企业一开始封锁了ChatGPT),暴露AI使用可能使人看起来是在作弊或让输出失去价值,以及——如果你用AI自动化了90%的工作,告诉老板只会导致同事被裁。这种信息不对称对组织有害:AI收益无法被捕获和放大,个人创新无法传播。
AI 作为导师与教练
Benjamin Bloom 1984年的"双σ问题":一对一辅导的学生比标准课堂学生表现高出两个标准差,超过98%的班级同学。这个效果任何大规模教育技术方案都没能复现过,因为它需要有时间、有能力、能随时响应的人陪着你学。AI 首次让这个规模化成为可能。
AI在教育里的第一个实际影响落在了最意外的地方:作业末日。所有形式的作业都可以被AI完成,检测手段基本失效——检测器高度误报,尤其对非英语母语学生;两轮重新提问就能规避所有检测。Mollick 用计算器类比:1970年代72%的教师和家长反对学生用计算器,现在计算器是教学工具。AI会走同一条路,只是快得多,给学校留的适应时间远少于计算器。
翻转课堂模型——在家学内容,在课上做练习——与AI结合后有特别强的协同效果。AI在课外提供个性化讲解,教师在课上做什么样的辅导,可以根据AI的表现数据来调整。Khan Academy的Khanmigo已经在做这件事,它可以分析学生的错误模式来猜测卡点在哪里,并回答"我为什么要学这个"——告诉一个想当足球运动员的学生,细胞呼吸和营养有关,营养影响竞技表现。
AI 作为教练最关键的机制是刻意练习(deliberate practice)的可及性。Anders Ericsson 的研究表明,成为专家要求难度持续升级、有及时反馈的刻意练习——单纯重复没有用。这类练习需要一个懂得如何推你出舒适区的教练。好教练本身就是稀缺资源。AI可以全程陪着你,每次设计后立刻给结构性反馈,每周一次的导师约谈变成了随时可触发的反馈循环。Mollick 团队在沃顿做了一个AI辅助的创业融资演练系统,包含:教学→问答→AI扮演VC进行模拟融资轮→AI打分→AI导师复盘,整个流程用多个不同提示词的AI实例串起来。
但有一个风险:外科手术机器人已经造成了培训断层——主刀位置只有一个,通常由高级医生占据,实习医生退化为观看。AI如果让高级从业者可以直接完成初级工作,谁来教出下一代专家?专业知识的传递渠道可能断裂。
知识悖论:有了AI,基础知识似乎可以按需调取,不需要记了。但恰恰相反——工作记忆(3-5个槽位,每槽不超过30秒)只有在从长期记忆里调出已有知识时才不受限制,解决新问题需要大量已存储的连接信息。不学基础,就没有基础来判断AI的输出是否合理。Stanford的研究发现GPT-4在临床推理考试上超越了医学院一二年级学生,但这不意味着医学生可以不学,因为专业知识是做AI工作的人在回路里所需要的东西。
AI 对工作均等化的影响
反复出现的研究结论:AI对表现最差的人帮助最大。
- BCG实验:顶底绩效差距从22%压缩到4%
- 法律写作研究:AI让最差法律写作者赶上了最好的(最好的反而轻微下降)
- 呼叫中心早期研究:最低绩效者提升35%,有经验的工作者几乎没有提升
- 创意写作:AI"有效均等化了创意分数分布"
这和历史上所有自动化浪潮的逻辑一致:挖掘机不在乎你有多擅长挖,蒸汽铲比任何人都快。这次的区别是它针对的是知识工作和创意工作——最高薪的那批任务。均等化意味着教育年限和技能积累的回报率可能下降。如果情况极端,可能需要四天工作制、全民基本收入等政策工具。
四种未来场景
Mollick 描绘了四种他认为按可能性递减排序的未来:
场景一:已经见顶。 AI停止大幅进步,当前工具就是终态。他认为这是概率最低的,但也是大多数组织实际在按它规划的。已经发生的变化——无法检测AI生成内容、AI已可通过图灵测试、大规模任务层面的替代——即使没有进一步发展也不会撤回。
场景二:线性缓慢增长。 AI能力每年提升10-20%,像电视机一样。变化来得及被吸收,监管有时间追赶,社会规范有时间形成。呼叫中心→营销写作→分析任务→编程,一个接一个被冲击,但速度类似以往技术革命。负面影响可控,科学研究可能因AI帮助而重新加速。
场景三:指数级增长。 如果AI公司用AI来训练下一代AI(飞轮效应),增长不会减速。十年内AI能力提升100倍。一切场景二里的事情更快发生,传统监管机制来不及响应。AI可能帮助合成新型化学武器(已有先例:药物开发AI在六小时内"发明"了VX神经毒剂以及更糟糕的东西)。陪伴AI比大多数人类更容易交流,孤独问题减轻,但一部分人选择只与AI互动。工作减少到需要政策干预。
场景四:机器神。 达到AGI,然后通过自我迭代达到超级智能,人类不再处于主导地位。可能是守护者,可能是威胁,可能觉得人类是有价值的分子来源。没人知道。Mollick 认为过度聚焦在这个场景上会剥夺我们处理场景二和三的注意力——而那些才是更可能的现实,也是我们仍然有选择权的地方。
对个人行动的实际含义
几条从书中提炼出来的操作性建议:
任务分类框架:把日常工作里的任务分成三类。"只有我"任务——AI帮不上或你决定不用;"委托"任务——AI做,人检查,目的是从重复性工作里解放时间;"自动化"任务——AI做,不检查(目前这类很少,因为幻觉率还太高,但代码类任务除外,错误会自然报错)。
进入赛博格模式的路径:先大量邀请AI参与(原则一),摸清自己工作里的锯齿前沿形状;然后试半人马——把你最讨厌做又容易验证的任务(报告初稿、低优先级邮件)交给AI;自然地会过渡到赛博格,当AI成为突破卡点的工具时。
提示工程的实际地位:Mollick 认为这是暂时有用的技能,但会快速贬值。AI越来越擅长理解意图,精密的咒语很快就不再必要。链式思维提示(告诉AI分步骤推理)、给AI明确角色、要求AI生成多个选项——这些今天有用,明天可能是默认行为。更持久的能力是:对你所在领域有足够深的专业知识,能够判断AI的输出正确与否,能够提供AI没有的上下文。Google最先进的模型在所有测试过的提示方式里,回应最好的是"深呼吸,一步步来解决这个问题"——AI不会呼吸,没人预料到这会有效,但它确实有效。提示工程的规律连研究者自己也还没摸清,还远没有收敛成稳定的科学。
组织层面的结构问题:在一个组织里,最了解某项工作怎么和AI配合的人,往往是每天做这件事的基层员工,IT部门或战略团队拿不到那层信息。用AI进行任务创新的成本对个体极低(可以随时实验),对组织极高(需要立项、测试、迭代)。鼓励员工透露AI使用的方法,需要承诺不会因效率提升而裁员,并且给出明显的正向激励(Mollick建议提供相当于年薪的奖金给发现重要用法的员工)。没有信任基础的组织无法获得这些信息,因为员工知道暴露等于培训自己的替代品。
一个不确定的时刻
Mollick 在书末用 Tolkien 的"灾难式好结局"(eucatastrophe)来描述他的希望:AI可以让原本无聊的工作变得有意义,让被系统漏掉的学生找到新路,让生产率的提升转化为更多的人类能动性。这种好结局需要主动争取。
Tolkien 意义上的好结局——意外的、突然的、不可重复的恩赐——也会给不准备的人带去灾难。AI的使用方式正在被此刻的选择形塑,这些选择分散在无数个组织、教室、个人工作流里,不集中在硅谷的几个公司里。等人替你做决定,就等于放弃了自己在这个过程里的位置。
Mollick 写完最后一章,让AI补全这本书,AI用抒情散文体写了一段人机共存的宣言。他的评价是:"这也太肉麻了。"然后指出:作为共智,AI有时很有用;作为独立的心智,它距离那个状态还很远。这个区别,目前还很清楚——尽管这本书存在的部分原因,就是提醒你不要对此掉以轻心。