BOOK NOTES
这才是心理学
基思·斯坦诺维奇
《这才是心理学》(英文原名 How to Think Straight About Psychology)是加拿大认知心理学家基思·斯坦诺维奇写给心理学入门读者及普通公众的方法论读本,目前已出至第10版,长期作为欧美高校心理学导论课程的指定教材。全书的重点是心理学"如何知道",而非心理学"发现了什么":科学方法为何能产生可靠知识,人们在评估行为主张时又会系统性地犯哪些错误。
斯坦诺维奇写作动机很直接。他观察到两件事同时成立:一,大众媒体充斥着以"心理学"为名的伪科学;二,正规大学心理学课程几乎从不专门训练批判性思维——学生通常只接受"研究发现塞入教学"的方式,学期结束时仍带着第一天入场时的误解。这本书的目的,是提供一套独立评估心理学主张的工具,让读者离开课堂后仍然受用。
全书结构紧密,12章各解决一个层面的问题:什么是科学、理论如何才算可证伪、概念如何操作性定义、个案证据为何无效、相关为何不等于因果、控制实验如何运作、人工实验为何合法、证据如何聚合、原因为何是多重的、概率推理为何困难、偶然性为何被忽视,以及心理学的公众形象为何扭曲。每章各有具体案例支撑,落脚于一个可迁移的推理原则。
一、现代心理学的科学性质
弗洛伊德在公众心目中高度代表心理学,但他的研究方法与现代心理学相去甚远:他不采用控制实验,相信个案研究可以证明理论,理论体系本质上无法证伪。现代美国心理学会会员中认同精神分析取向的不超过10%;在另一个主要组织美国心理协会中,比例更低。
心理学研究主题极为广泛,涵盖神经行为科学、发展心理学、消费者心理学等众多领域,美国心理学会下设56个分支机构。这些子领域的统一性来自方法——用科学手段研究行为——并不来自研究主题的相似。
科学有三个相互联系的核心特征:
- 系统的实证主义:知识来自结构化、可控制的观察,而非纯粹思辨。单纯、非结构化的观察不能产生科学知识——记录你一天中所有见到的事情,不会让你更理解这个世界。
- 公共可验证的知识:研究结果必须公开,可被他人重复检验,经过同行评审。未经同行评审直接诉诸媒体的"发现",本身就是可疑的信号。
- 研究实证可解的问题:理论必须能产生可检验的预测。"人性本善还是本恶"不是科学问题;"在日托期间接受结构化语言刺激的3岁儿童,是否更早做好阅读准备"才是。
心理学不研究"生命的意义是什么"这类无法实证检验的问题,只研究可观察、可测量、可操作的现象。这是局限,也是推动知识积累的前提。
二、可证伪性:好理论必须能被推翻
19世纪费城医生本杰明·拉什用大量放血法治疗黄热病。病人好转,他归功于疗法;病人死亡,他归因于病情太重。这种评估框架没有任何可能得出"疗法无效"的结论——所有结果都能被解释,因此这个理论也无法被修正。
哲学家卡尔·波普尔提出可证伪性标准:一个有用的理论,必须明确说出哪些事情不会发生。如果预测被否定,理论就需要修正或替换。某个不可证伪的理论看似能解释一切,实际上不产生任何新知识——它堵住了进步的大门。弗洛伊德精神分析的问题正在于此:它能对所有人类行为事后作出解释,但事先无法作出可被否定的预测。
几个推论:
可证伪的预测越具体,被证实时的证明力越大。"下一个敲门的人年龄不超过100岁"被证实没有任何意义;"30岁女性、5英尺2英寸高、左手拿包"被证实则令人信服。原因是具体预测把更多可能性排除在外,一旦成真,竞争性解释就更少。
科学上犯错不是罪过。错误是必经之路:被证伪的预测迫使理论修正,逐步逼近真相。"地球是球体"比"地球是平的"更准确,但仍可被修正为"扁球体"。每次修正都是进步,并非对全部前知识的否定。阿西莫夫的分析表明,平面修正为球体这一步的幅度,远大于球体进一步修正为扁球体的微调——这就是为何我们不会某天醒来发现地球其实是个立方体。
"这只是一个理论"是外行对"理论"一词的误用。科学中的理论指有大量实证支持、产生了具体预测且经受检验的解释框架,与外行理解的"猜想"截然不同。进化论是科学意义上的理论,与地质学、物理学、遗传学高度一致;神创论支持者试图利用外行对"理论"的理解来混淆这一点。
三、操作定义:概念必须与可观测行为挂钩
本质主义者追问"智力到底是什么""引力的内在本质是什么",要求给出终极答案。科学家不这样工作。物理学家也不知道"引力究竟是什么",他们只研究引力如何运作、如何测量。科学的目的是解释现象,而非对措词进行分析。
操作主义的要求是:理论中的概念必须通过可测量的操作来定义,使任何人都能实施相同测量并得到相同结果。"我感到饥饿"不是操作定义;"禁食多少小时后血糖降至某一水平"才是。操作定义把概念从个人化感受中分离出来,进入公共领域。
操作定义的两个质量标准:
- 信度:同一测量工具在多次测量中给出一致结果。公共汽车到站时间忽早忽晚,信度低;测量结果前后一致,信度高。
- 效度:测量工具确实测量了它本应测量的概念。用鞋码仪测"智力"有信度(每天读数稳定),但完全没有效度——鞋码与学业成就、认知效率、脑功能指标均无关联。高信度低效度的测量没有科学价值;高效度低信度的测量在逻辑上甚至不可能存在,因为不一致的测量无从声称测量了什么。
操作定义会随证据积累而演变。早期"智力"仅被定义为心理功能测验分数,此后逐渐与脑损伤研究、信息加工理论整合,概念愈来愈精细。这种演变是进步的正常路径,也是科学的工作方式。"行星"的定义在2006年被国际天文联合会重新操作化,将冥王星排除在外——基本概念的修订在科学中司空见惯。
心理学用日常词语("焦虑""智力""攻击""抑郁")作为专业术语,但其含义与日常用法不同。"抑郁"在《精神疾病诊断与统计手册》中占超过12页的操作性标准,与外行所说的"感觉糟透了"有本质差异。外行不能要求心理学采用自己的个人定义——这类定义无法接受公众评议,也无法重复验证。
四、个案证据为何毫无价值
个案研究和见证叙述在研究早期有用:它们可以提示哪些变量值得关注,为后续研究提供假设。皮亚杰关于儿童思维的早期个案研究,启发了大量发展心理学研究,但这些个案研究本身并没有"证明"任何事情——它们只是开启了一片研究领域。
在检验理论时,个案证据毫无说服力,原因有两个。
第一:安慰剂效应。任何一种治疗干预,都会让一部分人报告症状改善,无论其中是否含有有效成分。抑郁症患者服用安慰剂,29%的人报告好转;偏头痛患者服用安慰剂,21%的人在两小时内好转;甚至有报告显示,接受虚假外科手术(有切口但未进行实际手术)的患者与真正接受手术的患者报告了几乎相同程度的关节炎症状缓解。安慰剂效应无处不在,这使见证叙述无法区分"疗法真的有效"与"仅因安慰剂效应或自然康复而好转"。证明疗法有效,必须将其与对照组比较。
第二:鲜活性偏误。人类记忆和决策偏向提取鲜活、具体的信息,概率数据相对抽象,容易被一个生动的反例压倒。在评估汽车品牌时,一千份消费者调查不如一个朋友的亲身遭遇有说服力,即便前者的信息价值远高于后者。媒体对空难的报道制造强烈鲜活性,导致人们高估飞行风险;公路事故每周死亡350人,因为分散在全国各地、缺乏鲜活性,几乎不引起任何讨论。这是认知系统对具体、生动信息的默认优先,而非理性评估的结果。
伪科学利用这两点:提供高度鲜活的个案("亲历者"作证),让安慰剂效应的受益者相信干预有效,同时避开同行评审。
五、相关不等于因果
台湾地区一项大型研究发现,家用电器数量是预测避孕工具使用的最强变量。这不意味着电器导致了避孕行为,两者都与社会经济地位相关——这是第三变量问题的典型案例。
相关研究面临三类因果推论障碍:
第三变量问题
两个变量之间存在相关,原因可能是都与未被测量的第三变量相关,而并非两者之间有直接因果关系。20世纪初,戈德伯格研究糙皮病时,污水处理条件与发病率相关,当时的医学共识认为这是传染病通过排泄物传播的证据。戈德伯格的判断是:贫困导致营养不良(低蛋白饮食),同时贫困也与污水处理条件差相关。他吃下患者排泄物未感染,再给高碳水化合物饮食的囚犯组诱发了糙皮病——这才构成因果证据。污水与糙皮病的相关是虚假相关,第三变量是营养状况。
私立学校与学业成绩的争论同属此类。私立学校学生成绩更好是事实,但当统计上控制家庭背景和一般认知能力之后,学校类型与成绩之间的相关几乎消失。推断"私立学校教育提升成绩",逻辑上等同于推断"烤箱控制生育"。
复杂的相关技术(偏相关、多元回归)可以在统计上控制潜在第三变量,但无法穷举所有可能的混淆因素。
方向性问题
相关不能说明因果方向。眼球运动和阅读能力相关:早期研究认为"不规则眼动导致阅读障碍",由此开展眼球运动训练计划,买了大量如今积灰的训练仪器。研究后来证明方向相反——是阅读障碍(单词解码和语音加工的语言问题)导致了不规则眼动。教会儿童有效识别单词,眼动自然平顺。同样,自尊与学业成绩相关,但把提高自尊作为改善学业的途径效果极差,因为因果方向是学业成功和生活其他方面的顺遂带来高自尊,而非反向。
选择性偏差
人们会主动选择自己所处的环境,由此制造出行为特征与环境变量之间的虚假相关。亚利桑那州呼吸系统疾病死亡率高于平均水平,原因在于患病者主动选择搬去该州,与当地空气质量无关。激素替代疗法的早期研究显示其降低心脏病风险,因为选择接受HRT的女性本来就更积极锻炼、更少肥胖、更不抽烟——后来的随机实验证明HRT本身对心脏病没有防护效果。
SAT成绩与教育支出的负相关,是选择性偏差的教科书案例:高教育质量的州有更高比例的学生参加SAT(包括成绩中等的学生),低教育质量的州只有少数顶尖学生参加,平均分自然更高。
六、实验控制的逻辑
科学思维的基础是比较、控制和操纵:孤立事件无法解释,在不同条件下比较结果,才能排除错误解释。
随机分配是真实验的必要条件。将被试随机分配到实验组和控制组,使两组在所有已知和未知变量上大致均衡,从而让自变量的操纵成为两组差异的唯一可能解释。随机分配与随机取样不同——前者是实验设计的核心要求,后者是调查研究(民意测验、市场调查)的要求,大多数心理学基础研究不需要随机取样。
控制组的作用经常被忽视。考察一个2×2的数据表:200人受治疗后好转,75人受治疗后未好转;65名对照组中50人(76.9%)好转,15人未好转。受治疗组好转率是72.7%,低于对照组——疗法无效,甚至可能有害。仅看实验组的绝对人数(200人好转),会错误地相信疗法有效。缺乏控制组信息,系统性高估疗效的例子在医学中反复出现:门腔静脉分流术在没有控制组的研究中96.9%显示有效,在随机分配控制组的研究中只有25%显示有效。
聪明汉斯的教训:一匹马能用蹄子"算出"数学答案,被专家们目击过无数次。心理学家芬斯特发现,这匹马实际上在识别提问者无意识的头部动作——提问者挡在视线之外,马就失去了"能力"。这个案例的核心教训是:描述一个现象(马敲出了正确答案)不等于解释这个现象(马会算数学)。区分两者需要控制条件。20世纪90年代的"辅助沟通疗法"是聪明汉斯的现代版:自闭症儿童在辅助器帮助下打出流畅文字,被媒体大量报道。控制实验(给儿童和辅助器分别呈现不同图案)证明答案来自辅助器,而非儿童。这一疗法的推广导致了虚假的性侵犯指控和儿童被迫离家的悲剧。
设置人为的、不自然的实验条件是刻意的,目的是分离自然情境中同时共变的多个变量。几个世纪的日常观察没有让人们发现运动定律;伽利略用光滑斜面上的铜球才做到了,而这种场景在自然中极为罕见。
七、人工实验与理论的应用
"这不是真实生活"的批评基于一个误解,以为所有研究都应当直接推广到特定现实情境。心理学研究大多是基础研究,目的是验证关于行为机制的理论,而非直接预测某一具体情境中的事件。
基础研究的结果通过理论间接应用。海奇特让被试在暗室里判断微弱红光,与真实生活毫无关联,但他建立了视杆细胞和视锥细胞暗适应机制的理论。这个理论被用来解释夜盲症、改进X射线识别,二战期间英国飞行员等待夜间轰炸机时佩戴红色飞行眼镜(红光不影响视杆细胞的暗适应)。应用来自理论,不来自实验情境本身。
心理学家在手机普及之初就预测开车打电话会增加事故,依据是几十年前就已建立的注意力有限加工理论——早于任何以手机为刺激的实验研究。这一理论预测被后来的现场研究反复证实。
"大二学生问题"(多数研究以在校大学生为被试)是真实的局限,但常被夸大。对于感知、记忆、注意等基本认知过程,没有合理理由认为不同地区的人群有本质差异;多数核心发现在不同国家和年龄段均有重复验证。在社会心理学等更依赖文化情境的领域,跨文化研究确实发现了与美国样本不同的结果,这些差异本身就是理论精细化的资料,不构成否定整个研究纲领的理由。
八、聚合性证据:科学共识如何形成
媒体热衷报道"重大突破"和"关键实验",由此形成一种误解:科学靠单一发现的跨越式进步。这被斯坦诺维奇称为爱因斯坦综合征——把最罕见的进步模式当作常态。实际上,大多数领域(包括心理学)靠的是聚合性证据逐步积累共识,其过程类似调焦:起初图像模糊,排除的假设越来越多,直到聚焦成共识。
关联性原则约束新理论必须能解释已有的实证事实,不能只解释新现象而抛弃旧证据。爱因斯坦相对论在低速时的预测与牛顿力学一致,这正是理论进步的标志。伪科学常声称自己的理论如此"全新",以至于旧数据都"不相关"——这是刻意破坏关联性原则,目的是摆脱已有反证。达尔文自己也据此原则放弃了"泛生论":该理论与细胞学说不一致,与输血实验结果矛盾。
聚合性证据原则的逻辑:单一实验都有瑕疵,但多个存在不同瑕疵的实验若得出相同方向的结论,可信度就会大幅提高——因为不同实验不太可能因相同的混淆因素而全部出错。电视暴力与儿童攻击性的关联,来自相关研究、纵向研究、实验室实验和现场实验。烟草公司和电视网的惯用策略是挑选个别研究的瑕疵来攻击,暗示"这项研究有问题,所以结论无效"——这混淆了单一研究的局限与聚合性共识的不同逻辑层次。
矛盾数据不等于无法得出结论。早期证据相互矛盾很正常,原因可能是研究问题理解不足、研究方法细节不同,或是纯粹的偶然波动(见第十一章)。医学界关于每日服用阿司匹林是否防癌的研究结果长期不一致,部分研究者认为最佳剂量尚未确定。不确定性先于共识,这在任何科学中都是常态。
元分析是将多个研究结果统计整合为一个结论的技术,在教育心理学、健康心理学、临床心理学中均有应用。需要注意的是,元分析的结果并非总是积极的——"学习风格"匹配教学的假说在数百个研究的元分析后未获证实。元分析既能支持假说,也能否定假说,都是聚合机制正常运作的表现。
九、多重原因与交互作用
复杂行为总是由多个变量共同决定,寻找某个单独原因足以解释全部现象的"神奇子弹",是常见的思维陷阱。校园枪击案、贫富差距扩大、肥胖率上升,都有多重相互强化的原因;在情绪化辩论中偏向单一原因,通常反映的是政治立场,而非对证据的中立评估。
交互作用进一步复杂化这一图景:一个变量的效应依赖于其他变量的存在,各因素共同作用时的效果大于各自效应的简单相加。拥有5-HTT基因S等位基因的人比有L等位基因的人更可能患严重抑郁,但只有当个体同时经历儿童期虐待、失业或离婚等多重创伤时,风险才显著上升;单独考察这个基因,效应很小。类似地,鲁特对儿童精神疾病的研究发现,单一慢性压力对患病风险几乎没有影响,但任何两种压力同时存在时,患病风险超过原来的四倍。
对单一变量重要性的低估是另一个常见错误。一个只能解释行为变化中1%方差的变量,可能在公共卫生层面每年额外挽救数百条生命,或者降低数百起犯罪事件——"只是众多原因之一"不等于"可以忽略"。罗森塔尔举过一个例子:某心脏病治疗方案能将患者存活率提高不到1个百分点,实验者认为效果太过显著,出于伦理提前终止研究,将控制组患者全部改用此方案。
十、概率推理的失败模式
心理学所有结论都是概率性的,描述群体趋势,而非每个个体的确定结果。这并非心理学的特殊局限——核物理、医学、流行病学均如此。但人们接受"吸烟增加肺癌风险"的概率表述,却很难以同样方式接受行为科学的概率结论,理由是"我认识一个优秀学者,他爸爸只是中学毕业"。
这种反驳叫**"某某人"统计学**:用个别反例否定概率趋势。它之所以常见,是因为人们误以为概率规律应该对每个个案都成立。吸烟者活到85岁的比例约5%——概率规律不排除这5%,只是这5%不能反推吸烟与寿命无关。概率规律告诉我们趋势,不能预测哪个具体个体会是例外。
三类常见的概率推理错误
忽视基础比率:HIV检测有5%假阳性率。若该病毒在总体中的携带率只有1/1000,则检测阳性者中真正携带病毒的概率仅约2%,而非95%。1000人中1人携带,999名非携带者中约有50人(999×0.05)会检测阳性,总共51人阳性,其中1人真阳性。医生常因过分关注检测结果(具体信息)而忽视基础比率(抽象信息),导致概率判断偏高。贝叶斯推理要求同时整合先验概率(基础比率)和具体证据,但人类直觉倾向于让具体信息压倒基础比率。
忽视样本量:小样本会产生更极端的结果。肾肿瘤发病率最低和最高的地区往往都是人口稀少的农村。这是小样本必然产生高方差的统计结果,与当地环境无关。大医院每天45名新生儿的样本,男婴比例更稳定趋近50%;小医院每天15名,男婴比例波动更剧烈,更可能出现60%以上或60%以下的偏差天数。大样本的结果更接近总体均值,信息量更大——抽5个球得出4红1白,比从中抽20个球得出12红8白,对"容器中多数球为红色"的支持力度更弱,尽管前者的红球比例更高。
赌徒谬误:轮盘连续出现15次红色后,许多赌徒转投黑色,认为黑色概率更高。实际上,轮盘不记得先前的结果,每次概率仍是50%。独立随机事件之间没有"债务"关系,前一次结果不影响后一次概率。这一错误延伸到生活中:连生两个女儿后认为第三个"一定是男孩",在逻辑上等同于赌博中的谬误。
十一、偶然性的作用与统计预测的优势
人类大脑是意义寻求机器,擅长在随机数据中发现规律——这一能力有进化优势,但遇到真正的随机性时会产生系统性错误。
错觉相关:当我们预设两个变量相关,就倾向于"看到"它们同时出现,即使实际上它们只是随机共现。罗夏墨迹测验被临床医生长期使用,用于诊断人格特质;控制研究表明它不提供任何额外的诊断效度。临床医生对该测验的信心来自错觉相关——他们相信存在关联,所以持续"看到"关联。
控制错觉:人们倾向于相信个人能力可以影响偶然事件结果。彩票"参与式"设计(让买家自选号码)让销量暴增,因为自选制造了掌控感,而实际概率完全相同。
个人巧合被过度解释:每天参与约100件事,两两配对产生4950种组合,一年约180万种,10年达1800万种。其中有少数几个让人印象深刻的"不可思议的巧合",完全符合纯概率预期,不需要任何特殊解释。基本规律是:罕见事件在足够多的试次中几乎必然会出现——100次掷5枚硬币,至少有一次全正的概率高达96%。
临床预测与统计预测
试图解释一切、拒绝承认偶然因素,会降低实际预测能力。一个红灯亮70%、蓝灯亮30%的随机序列中,总押红灯的命中率是70%;在红蓝之间来回变换以追求"全对",总命中率只有58%。要减少整体错误,必须接受在30%出现蓝灯时的系统性失败——接受错误以减少错误。
这一逻辑延伸到临床心理学:保罗·米尔1954年发表经典著作后,超过100个研究在60年间一致证明,统计预测(基于群体趋势的公式)在几乎每一个被检验的领域都优于临床预测(专家基于个案经验的直觉)。这些领域包括精神治疗效果、假释行为、大学毕业比例、累犯问题等。即使临床医生拥有比统计方法更多的信息(个案访谈资料),其预测准确率仍无法超越统计方程。进一步的研究显示,让临床医生在统计预测基础上做修正,准确率反而下降。
统计预测优势的机制:统计方程以优化标准稳定整合变量,不受个案信息的偶然波动、认知偏误或情感因素影响;而"稳定"这一因素,恰恰消除了临床医生从额外信息中获得的潜在优势。统计预测的优势不限于心理学,已在医学诊断、金融服务和体育训练中得到证实。
十二、心理学的形象问题与内部矛盾
公众对心理学的误解有外部来源,也有内部原因。
外部来源:书店里以"心理学"为名的书,大量是超自然伪科学(占星、通灵)或个人自助读物,后者基本不经控制实验,靠见证叙述和临床经验支撑。媒体将这些内容呈现为心理学的代表,与真正的研究社群几乎没有重叠。自助读物给公众留下三个错误印象:一,心理学主要研究异常行为和心理咨询(实际上大多数心理学研究的是正常行为);二,心理学的研究方法就是个案研究和临床经验;三,心理学追求的是"做X就得到Y"的菜谱式知识,而非解释机制的理论。
内部矛盾:心理学的某些临床分支存在反科学倾向,对自己的方法拒绝实证检验。辅助沟通疗法控制实验证明无效后仍在推广;儿童监护权评估使用信度效度均未验证的量表;临床医生声称拥有超越统计预测的"直觉",但数十年研究一致表明这种声称不成立。"恢复记忆"争论集中体现了这一矛盾:部分治疗师用高度暗示性的技术诱发了儿时受虐的虚假记忆,伤害了被治疗者;另一些心理学家通过控制研究系统记录了虚假记忆的形成机制,提供了真正有价值的知识。
识别伪科学的几个标准(利连恩费德总结):
- 采用特殊假定使主张免于被证伪
- 过度依赖见证叙述而非控制研究
- 回避同行评审,选择直接诉诸媒体
- 声称掌握旧有科学框架无法触及的"全新"知识,因此旧数据都"不相关"
- 在已有科学体系中找不到关联,与其他学科的知识不一致
"什么都能往里装"的危害:许多对科学心理学的抵制,背后是利益冲突——伪科学产业的盛行,依赖于公众不知道行为主张可以用实证方法检验。如果"心理学没有标准",那么任何人对人类行为的说法都和科学家的说法等价,伪科学就能蓬勃生长。科学心理学的价值正在于其筛选机制:不是所有主张都有同等依据。
可迁移的评估工具
读完这本书,真正可以带走的是一套评估任何行为主张的方法,而非心理学的具体发现清单:
- 这个理论可证伪吗? 它能说出哪些结果不会出现?还是无论发生什么都能事后解释?
- 概念有操作定义吗? 被如何测量?测量工具有信度和效度吗?
- 证据是什么类型的? 见证叙述和个案,还是有对照组的系统研究?控制了安慰剂效应吗?
- 相关还是因果? 有没有随机分配?有没有考虑第三变量和方向性问题?
- 聚合了吗? 单一研究的发现,还是多个独立研究用不同方法得出一致结论?
- 结论是概率性的吗? 有没有人用个别反例来否定统计趋势?
- 偶然性排除了吗? 这个巧合或模式是否可以用随机性解释?有没有用错觉相关来建立联系?
这些工具适用于任何学科的知识主张,但在心理学中尤其重要——这个领域最容易被伪科学混入,公众的直觉理论在这里最不可靠,个案证据又最鲜活、最有说服力。斯坦诺维奇的核心论点是:如果我们关于物体运动的直觉物理学都是错的,关于更复杂的人类行为的直觉心理学更没有理由相信会正确。