如何不受无稽之谈的蒙蔽
19世纪杰出的美国思想家、作家拉尔夫·爱默生:“浅薄的人相信运气,强大的人相信因果。”
我们把正确区分因果关系和相关关系的方法论称为“因果推理”。
我先请各位读者回答以下几个问题。
判断两个变量属于因果关系还是相关关系时,可以通过以下三个问题进行质疑。
① 是否“纯属巧合”?
② 是否存在“第三变量”(混杂变量)?
③ 是否存在“逆向因果关系”?
证明不存在上述三种情况的方法就是对现实和“反事实” 进行对比。
反事实是指对过去未曾发生的事实所做的假设,例如“如果当时没有……,那么……”。我们将现实中实际发生的事称为“事实”,所以将设想的与现实完全相反的情况称为“反事实”。
法国哲学家布莱士·帕斯卡:
“如果克莉奥帕特拉的鼻子再塌一点,世界史就会改写了。”
反事实思维:要证明因果关系的存在,必须对“事实”中原因发生后的结果与“反事实”中原因未曾发生时的结果进行对比。
没有时光机就制造不出反事实吗?
问题:现实中我们可以观测事实,但无法观测到反事实。
最早创建因果推理体系的哈佛大学统计学家 唐纳德·鲁宾 把这个问题称为 “因果推理中的根本问题” 。
然而,要证明因果关系,反事实是必经之路。
怎样才称得上“可比较”呢?如果两个组在人口、居民人均所得、流行敏感度等所有可能影响宝石饰品销售额的特征方面都非常接近,唯一的区别是“有无投放广告”,那么这两个组就是“可比较”的。
然而,现实中没有哪两个组在所有可能影响珠宝店销售额的特征上都非常接近。那么,也许有人会问:两个“大致相同”的组之间不能比较吗?
很遗憾,“大致相同”不能和“可比较”画等号。正因为如此,经济学者们要运用各种方法,尝试将两个不相似的组转化为“可比较”的组。
成功人士的故事里只包括事实,而不包括反事实。
“证据金字塔(evidence pyramid)”
定期接受代谢综合征体检就能长寿吗?
实际操作中如何进行随机分组?例如可以投硬币,正面朝上的划入给药组,背面朝上的划入不给药组(反之亦可);或者使用由随机生成的数字组成的随机数表,根据抽取的是奇数或偶数来决定是否给药;也可以用抽签的方式决定分组。
小鼠之间的个体差异不明显,只要准备足够多的个体进行随机划分,就不会受到小鼠个体差异所导致的偶然因素的影响。因此,给予药物的小鼠组和不给予药物的小鼠组可以视为可比较的两个组。
随机对照试验的本质就是用对照组替换“如果干预组没有投放药物”的反事实。
为什么一定要进行随机分组?不能直接比较曾经接受过体检和未接受过体检的人吗?
其实曾经接受过体检和未接受过体检的人属于不可比较的群体。试想过去一直接受体检的人健康意识肯定很高,而未接受过体检的人恐怕都不太注重身体健康。所以不管怎样,这两类人群都不适合拿来做比较。
人与临床试验小鼠的不同之处在于,人会按照自身的意志选择自己的行为。个人“选择(selection)”会导致两个研究对象组不具备可比较的属性。这种现象在经济学中被称为 “选择性偏差(selection bias)”。
英语中有这样一句俗语:简直是在拿苹果和橘子比。
这句话讽刺了拿两种原本就截然不同、没有比较意义的事物做比较的行为。对曾经接受过体检的人和未接受过体检的人进行比较,就类似于“拿苹果和橘子比”。
回归分析作为基础模型的潜在问题是“拿苹果和橘子比”。
丹麦也实行与日本类似的代谢综合征体检,为国民提供糖尿病、高血压等生活习惯病的诊断及保健指导服务。随机对照试验将30~60岁的成年男女随机划分为接受体检的干预组(约1.2万人)和不接受体检的对照组(约4.8万人),用了十年时间对两组人群做了追踪调查。
在干预组中,体检结果为未来患病风险高的人均被要求在5年内接受大约4次保健指导。结果显示,接受保健指导的大部分人在饮食习惯、运动、吸烟和饮酒习惯等方面有所改善。
然而,十年后的结果令人震惊:无论生活习惯改善与否,干预组和对照组的死亡率的差异在统计学上不具有显著性。
我们可以再举一个更直观的例子。扔一枚硬币,正面朝上的概率是50%,反面朝上的概率也是50%;扔两次硬币,两次均为正面朝上的概率是0.5×0.5=0.25(25%)。现实中,即使两次都是正面朝上,很多人仍会认为这纯属巧合。
四次均正面朝上的概率是0.5×0.5×0.5×0.5=0.0625(约6%),五次均正面朝上的概率是0.5×0.5×0.5×0.5×0.5=0.03125(约3%)。判断是否在统计学上具有显著性的基准数值5%恰好处在这两个概率之间。看到投五次硬币均正面朝上,很多人会怀疑这不是单纯的巧合,而是作了弊。把这种感觉落实为实际的数值,便是5%。
换句话说,“在统计学上具有显著性”表示,两组之间的差异纯属巧合的概率就像连投五次硬币均正面朝上一样,概率非常小。
考察多项研究时,可以采用“元分析”(meta-analysis)方法。
元分析是指整合多项研究结果,从整体的角度验证关系的方法。尤其是整合多个随机对照试验的元分析在证据等级中所处等级最高。
元分析的结果已经证实,体检和长寿之间的确不存在因果关系。
日本国立癌症研究中心的研究团队于2016年8月发表了一份整合了9项采用日本国内数据的观察研究的元分析。该分析的结论是:对日本人来说,被动吸烟也会使肺癌患病风险提高1.3倍。据此,日本国立癌症研究中心指出,鉴于已明确证实被动吸烟会导致不吸烟的日本人肺癌患病风险增高,有必要全面禁止室内吸烟行为,仿效国外采取预防被动吸烟的措施
“兰德健康保险实验”(RAND Health Insurance Experiment)
哈佛大学医疗经济学家约瑟夫·纽豪斯在就职于美国著名智囊机构兰德公司期间实施了这项研究。该研究规模庞大,从1971年持续到1986年,以居住在美国6座城市的2750个家庭为研究对象,投入的研究费用按现在物价计算相当于3亿美元。组织方专门为这项研究成立了民间医疗保险公司,研究对象可免费加入医疗保险,他们被随机分入:
上述结果并不值得惊奇。不过,除了这些结论,兰德健康保险实验还证实了医疗费用自付比例与人们的健康状况之间不存在因果关系。在高血压症等30项健康指标上,研究组①(自付比例0%)与研究组②~④之间未发现在统计学上具有显著性的差异。
总而言之,提高自付比例从整体来看不会对健康状况造成不良影响,但会使贫困阶层人群的健康状况恶化
美国有一种名为“恐吓从善”(scared straight)的教育方法。通过恐吓让孩子认识到遵守规矩的必要性。例如通过重现交通事故现场让孩子学习遵守交通法规的重要性,或者带不良少年参观监狱以促使他们改过自新。
研究人员对接受过“恐吓从善”教育的年轻人(干预组)和未接受该教育的年轻人(对照组)进行了随机分组比较试验,发现了一个惊人的事实:与未接受该教育的年轻人(对照组)相比,接受过该教育的年轻人(干预组)在后来的人生中涉足犯罪的概率更高。
女性绝经后,患心肌梗死的概率会增至和男性同等的水平。因此有假说推测是雌激素降低了动脉硬化的风险。于是人们开始通过“激素替代疗法”,为绝经后的女性补充雌激素,试图由此降低心肌梗死的患病风险。
针对激素替代疗法的初期研究(使用观测数据的研究)均得出了相同结论:持续接受激素替代疗法的患者患心肌梗死的风险更低。
20世纪90年代后期,为了确认激素替代疗法的效果,进行了一次随机对照试验
早期的研究错在哪里?
随机对照试验之前的分析可能没有讨论诸如“对健康的关注程度”等混杂因素,从而误把伪相关当作了因果关系。这个事例使人们再次意识到随机对照试验在因果推理中的重要性。
南非一家名为Credit Indemnity的金融机构所做的A/B测试,结果十分耐人寻味。这家金融机构向大约5万名客户随机发放了直邮广告。
结果发现,附有性感女郎照片的直邮广告具有促进男性客户申请贷款的功效。此外,只印有1个贷款金额和还款方案的直邮广告比写有4个方案的广告收到的申请更多。也就是说,越简洁、信息量越少的直邮广告,增加客户的效果反而越显著。这或许说明直观、简明易懂、让人看到就能马上做出答复的广告,效果会更好。
第2章的关键词 随机对照试验
随机对照试验通过投硬币、随机数表、抽签等方式,将研究对象人群随机分为接受干预的组(干预组)和不接受干预的组(对照组),使两组成为可比较的组,用对照组的数据替换干预组“如果没有受到干预”的反事实。
男医生比女医生更优秀吗?
随机对照试验的证据等级很高,但实施过程中会遇到不少困难。比如,可能很难对作为研究对象的个体或企业进行人为随机分组。研究对象可能会强烈反对,或者很多情况下出于伦理考虑,无法进行随机对照实验。
让我们用珠宝店的例子设想一下。你所在的珠宝店在全国共有100家店铺。如前文所述,你想明确广告给销售额带来的因果效应。如果可以组织随机对照试验,只需把100家店铺随机分成投放广告的店铺(干预组)和不投放广告的店铺(对照组),进行比较即可。然而实际上这恐怕不会这么轻易实现。被分入不投放广告组的店铺可能会有意见,在重视速度的销售最前线,恐怕也没有充足的时间等待随机对照试验的结果出来之后再做决定。
再者,如今已是大数据时代。对很多情况,我们手头已经掌握了各种各样的数据。如果对这些数据视而不见,只会感叹“不做随机对照试验,就无法测定广告效果”,这样的人实在称不上有能力的企业人。
无法实施随机对照试验等人为实验时,我们只能用手头现有的数据进行分析。通过随机对照试验得到的数据称为“实验数据”,通过日常经济活动得到的数据以及从政府统计调查等渠道获得的数据称为“观测数据”。
采用观测数据的首要工作是找出“与人为实验相类似”的环境。“自然实验”,便是通过法律或制度变化、自然灾害、战乱等人们无法预测的变化,找到与随机对照试验类似的环境,从而明确两个变量之间的因果关系。
此处重申,这种方法的目的同样也是“制造可比较的组,用最贴切的值替换反事实”。事先无法预测的某些因素(经济学称其为 “外生冲击”)可以在不经意中将研究对象自然而然地划分为干预组和对照组,自然实验就是要利用这种环境。根据研究内容的不同,可以利用的外生冲击包括制度变革、自然灾害等。
“医生性别”与“患者死亡率”是因果关系吗?
思考这个问题时必须注意一点:男医生或许更倾向于选择重症患者,或者重症患者更倾向于选择男医师做自己的主治医生。为排除这类选择性偏差的干扰,津川等人选择针对住院医师(hospitalist)进行研究。
住院医师指不对外坐诊、只负责治疗住院患者的内科医生。这类专业医生自20世纪90年代起在美国得到飞速发展,如今绝大多数大型医院的内科住院患者都由住院医师负责治疗。住院医师的工作通常为轮班制,主要负责自己当班时收治的患者。也就是说,住院医师无法选择自己负责哪些患者,而患者也不能选择自己的主治医生。这种情况正可谓将患者随机分配到男医生组或女医生组的自然实验。
分析结果显示,女医生负责的患者的30天死亡率比男医生的患者低0.4%。
也许有人觉得0.4%的差异很小,几乎可以忽略不计。但其实这个差异绝对不小。死亡率0.4%的差异和近十年美国通过各种努力才实现的住院患者死亡率的下降幅度几乎持平。美国通过研发新药和医疗器械、开展医学研究获得最新知识、完善临床指南等途径实现的死亡率降幅和男女医生负责患者的死亡率之差相当,这个事实足以让人震惊。
为什么女医生负责的患者死亡率更低?既往研究发现,女医生遵照临床指南进行治疗的比例更高,她们和患者之间的交流也更为密切。有可能是男女医生在治疗方法上的差异导致了患者愈后的差异。
第3章的关键词 自然实验
利用研究对象人群由于法律制度变更、自然灾害等“外生冲击”的影响而自然分成受影响组(干预组)和不受影响组(对照组)的现象,来验证因果关系。
2005年世界卫生组织(WHO)批准《烟草控制框架公约》,阿根廷迅速加强了对烟草的控制。然而,随着阿根廷地方分权制度的深化,各省在政治和财政方面掌握的自治权大于国家,烟草控制的落实情况也各不相同。阿根廷保健部的研究人员试图把这种情况视为自然实验:
结果引人深思:两个地区在实施控制规定后,吸烟率并未发生变化。即实行控制未能阻止吸烟者继续吸烟。不过,实行严格控制的圣菲省的心肌梗死住院患者人数要比布宜诺斯艾利斯市少13%。也就是说,吸烟者未发生变化,但被迫受二手烟影响的人的健康状况得到了改善。
最低工资与就业之间存在因果关系吗?
自然实验是利用观测数据和外生冲击,找到类似随机对照试验的环境。然而,日常生活中很少出现法律制度变更、自然灾害等外生冲击,很难找到可视为自然实验的环境。
准实验是对实验的“模仿”,即通过观测数据和统计学方法,打造出与实施随机对照试验相类似的状态。
可以把这300万日元归功于广告吗?2016年应该继续投放广告吗?
原因有二:
“因为有保育园,所以母亲去就业”(因果关系)VS. “母亲就业率高的地区保育园数量也多”(相关关系)
东京大学的朝井友纪子等人采用1990年到2010年间日本各行政区的保育园定员率和母亲就业率数据进行了双重差分法分析。
分析结果令人震惊:保育园定员率与母亲就业率之间未发现因果关系。究其原因,保育所可能只起到了替代私人保育服务(祖父母、保姆等)的作用。
提高最低工资往往是经济形势恶化时所采取的政策,其目的在于提高工资,带动个人消费。“经济形势恶化”是同时影响最低工资和就业的混杂因素。使我们无法判断到底是“提高最低工资导致了雇佣减少”(因果关系),还是“就业环境恶化导致就业机会减少,于是提高最低工资”(相关关系)。
加州大学伯克利分校的大卫·卡德(David Card)和普林斯顿大学的阿兰·克鲁格(Alan Krueger)关注了新泽西州和宾夕法尼亚州交界处相邻的两个县。在美国,最低工资标准的调整以州为单位各自执行,1992年新泽西州将最低工资从每小时4.25美元提高至5.05美元,而宾夕法尼亚州则保持原有标准不变。
卡德和克鲁格的分析发现,提高最低工资不会减少就业。此外还发现,提高最低工资导致了新泽西州企业提高了产品价格。也就是说,企业并未通过裁员来克服提高最低工资带来的成本上涨,而是将其转移到产品价格上。
第4章的关键词 双重差分法
该方法从受到干预的组(干预组)和未受干预的组(对照组)中获取干预前后的结果差异,以及干预后和对照组的结果差异。不过,该方法只在两个前提条件成立时才能发挥作用。第一个前提条件是,干预组和对照组在干预前的结果具有相同“趋势”,即“趋势”是“可比较”的。第二个前提条件是,在施加干预期间,没有其他变化对干预组和对照组的结果产生影响。
几年前,某地方报社一时起意,搞了一次广告费打折活动。只要广告费用下降,该地区的店铺投放广告的可能性就会大幅提升。于是你想到了一个主意:能否利用这家报社的广告费打折活动,弄清楚广告对销售额的因果效应呢?这就是工具变量法的基本思路。
所谓工具变量,是指“对结果没有直接影响,但会通过影响原因间接影响结果”的第三变量。
拿广告费打折虽然不会直接影响销售额,但会影响店铺是否投放广告的决策,从而间接对销售额产生影响。报社搞不搞广告费打折活动与店长的干劲无关,也不会直接影响珠宝的销售额,但它会影响店铺是否投放广告的决策,从而间接影响到销售额。
报社广告费打折作为工具变量
工具变量法成立的两个前提条件
究竟是“因为看了电视,所以学习能力下降”(因果关系),还是“学习能力低下的孩子看电视时间更长”(相关关系)?
斯坦福大学的马修·根茨科(Matthew Gentzkow)等人研究了这项课题。他们关注了在1948年至1952年期间,美国以解决信号故障为由,对新电视台的执照许可实行了长达4年的冻结令这一历史事件。
20世纪40年代到50年代中期,电视在美国得到普及,越来越多的家庭能够收看电视。然而,随着1948年新电视台执照许可叫停,生活在没有电视台地区的人们直到1952年解除冻结令之前,一直没有电视可看。也就是说,电视台执照许可冻结令分离出了1948年前就能收看电视的家庭(干预组)和在1952年前没能看上电视的家庭(对照组)。
根茨科将“1948年到1952年间是否拥有电视”作为收看电视的工具变量。这一时期是否拥有电视很大程度上取决于调查对象是否居住在1948年前就已经取得执照的电视台的覆盖范围内。换句话说,电视台执照的相关规定明显会对看电视时间产生影响,但又不会直接影响孩子的学习能力,因此可以视作工具变量。
根茨科等人的分析结果出人意料:
回答这个问题同样需要慎重思考母亲的学历和孩子的健康之间是因果关系还是相关关系。究竟是“因为母亲学历高,所以孩子很健康”(因果关系),还是“能获得高学历的母亲的孩子很健康”(相关关系)呢?
克里等人采用“17岁时的家庭居住地到大学的距离”作为工具变量。17岁时的家庭居住地附近有没有大学会影响上学或寄宿的费用,进而影响到是否要考大学的决策。克里等人的数据显示,17岁时的家庭居住地附近每多一所大学,该地区女性的大学升学率就会增长19%。此外,17岁时的家庭居住地到大学的距离不会直接影响多年后出生的孩子的健康状况,因此可以视作工具变量。
克里等人的研究显示,本科以上高学历的母亲生育早产儿或低出生体重儿的概率更低,婴儿出生时的健康状况更好。究其原因,本科以上高学历母亲在怀孕期间吸烟的概率较低,接受产检的概率也更高。也就是说,上大学使她们养成了利于孩子健康的好习惯。
挪威曾出台过一项很有冲击力的法案:企业必须在2008年前将女性董事的比例提高至40%,否则将面临解散。
南加州大学的肯尼斯·R.埃亨(Kenneth R. Ahern)等人决定将“法案实施前各企业的女性董事比例”作为工具变量。简单来说,法案实施前女性董事比例已经很高的企业在法案实施后,不难完成将比例提高至40%的目标,因此在2003年到2008年间,女性董事人数应该不会显著增加。相比之下,法案实施前女性董事比例较低的企业则会在同一时期迅速增加女性董事的人数。这样一来,“法案实施前的女性董事比例”会对2003年到2008年间各企业的女性董事人数增长率产生影响,而且,该变量应该不会对目前的企业价值产生直接影响,因此可以视作工具变量。
埃亨等人得出的结果出乎意料:女性董事比例的提高会降低企业价值。具体来说,女性董事比例每增加10%,企业价值会减少12.4%。强制设定女性董事比例的数值目标,会大幅降低企业价值,使股东担负相应的成本。
为什么会这样呢?深入调查发现,这一期间就任董事的女性大多比原有董事年轻,没有董事经验,或者多来自其他行业。不仅如此,其中不少人的姓氏和原有董事相同。也就是说,她们很可能是原有董事的妻子或女儿。
为了完成政府制定的女性董事比例目标,很多挪威企业不得不把一些经验尚浅、缺乏管理者素质的女性推上董事职位,以解燃眉之急。这种做法导致了企业价值下降。
第5章的关键词 工具变量法
该方法利用“只能通过影响原因而间接影响结果”的工具变量,使受到干预的组(干预组)和不受干预的组(对照组)形成可比较的状态。不过,这种方法只有在满足两个前提条件时才能发挥作用。第一个条件是,工具变量会影响原因,但不会直接影响结果。第二个条件是,不存在同时影响工具变量和结果的第四变量。
和学霸做朋友,学习能力会提高吗?
让我们继续以珠宝店为例。就职于珠宝店的你还在为如何论证广告的效果而一筹莫展。这时,下属向你提出了一个方案:只有员工人数50人以上(含50人)的大型店铺才在年底圣诞季商战期间投放广告。
对此,你产生了一个想法:按照这个方案,员工人数49人的店铺不投放广告,而50人的店铺投放广告。不过,49人的店铺和50人的店铺除了是否投放广告之外,应该没有其他特别显著的差异。这样的话,只要比较49人店铺和50人店铺的销售额,不就可以明确广告对销售额的因果效应吗?其实,采用“断点回归设计”就能实现这个想法。
断点(员工人数50人)上下的店铺销售额确实没有显著差异。即员工人数刚满50人并因此能够投放广告的店铺(干预组)和员工人数差那么一点不到50人并因此未能投放广告的店铺(对照组)可以视作可比较的组。
用断点回归设计推算因果效应,必须满足一个重要的前提条件:在连续变量的断点附近,没有发生过影响结果的其他事件。
比如,假设员工人数50人以上(含50人)的店铺不仅可以投放广告,还会根据销售额发放奖金。在这种情况下,就无法判断断点的“跳跃”是广告的效果还是奖金的效果了。
到底是“因为和学霸做了朋友,所以自己的学习能力提高了”(因果关系),还是“学习能力强的孩子更愿意与学霸做朋友”(相关关系)呢?
麻省理工学院的安格瑞斯特(Joshua Angrist)等人研究了这一课题。波士顿和纽约各有三所特殊的公立高中,专门面向备考大学的学生,只有合格者才能入学,即所谓的“精英高中”。
安格瑞斯特等人认为,勉强通过合格线考入精英高中的学生(干预组)和差那么一点没到合格线只得去上其他高中的学生(对照组)属于可比较组。他们试图利用这种情况,将合格分数作为断点值,运用断点回归设计论证和学习能力强的朋友一起度过高中生活能否对学生的学习能力产生因果效应。
安格瑞斯特等人的研究结果显示,在波士顿和纽约的所有学校,断点前后并未观测到学习能力的“跳跃”现象。
杰弗里·克林(Jeffrey R. Kling)等人对美国政府实施的一项大型随机对照试验“希望迁移计划(Moving to Opportunity)”进行了研究。这项计划从贫困家庭中随机抽选一些家庭,向入选家庭发放能够搬迁到贫困率较低区域的优惠券。
入选家庭的孩子们在搬迁到新家后,会和比自己学习能力强的朋友们一起度过校园生活。但是,他们和继续生活在原来地区的落选家庭的孩子们的学习能力差异在统计学上并不具有显著性。
日本老年人在年满70岁以后医疗费用自付比例从30%降至10%的制度。
将70岁作为断点值,试图研究断点前后老年人在健康状况及医疗服务使用频率上的变化。也就是说,他认为70岁0个月的人(干预组)和69岁11个月的人(对照组)属于可比较组。
研究结果显示,老年人的自付比例下降后,门诊就医患者数量增加了10.3%。但是,在断点值70岁前后,并未观测到死亡率的“跳跃”。也就是说,即使自付比例降低,就医或住院频率增高,死亡率也没有发生变化。不仅如此,在调查中回答身心健康以及自我健康状况良好的受访者的比例也未出现“跳跃”。
医疗费用自付比例降低后,虽然老年人去医院的次数变多了,但这对他们的死亡率和健康状况并不会产生影响。
第6章的关键词 断点回归设计
断点回归设计是利用任意决定的断点值两侧自然成为干预组与对照组的情况,推算因果效应的方法。断点回归设计成立的前提条件是断点值周围没有发生影响结果的其他事件。
上好大学收入就会更高吗?
假设你还在为投放广告的店铺和不投放广告的店铺不可比较一事发愁。
这时,你突然产生了一个想法。你所在的珠宝店目前共有100家店铺。其中30家投放了广告,70家未投放广告。从未投放广告的70家店铺中,选出和投放广告的30家店铺情况相似的30家店铺,将二者进行比较不就好了吗?这便是匹配法的思路。
所谓匹配法,即从对照组中选出和干预组非常接近的配对,使两组成为可比较组的方法。
“倾向得分匹配法”(Propensity Score Matching) 将多个协变量整合成一个得分,用这个得分进行匹配。倾向得分指 “分入干预组的概率”。例如,考虑多个协变量后,如果某店铺投放广告的概率为50%,则该店铺的倾向得分就是0.5;如果某店铺投放广告的概率为30%,则该店铺的倾向得分为0.3。
如果投放广告的店铺(干预组)中有某店铺倾向得分为0.5,那么就从未投放广告的店铺(对照组)中选出倾向得分同为0.5的店铺进行匹配;如果某店铺倾向得分为0.3,那么就从对照组选出得分同为0.3的店铺进行匹配。对采用这种方法最终形成的两个组进行比较,可以发现用于计算倾向得分的所有协变量(平均之后)在两个组具有相同的值。
Propensity scores reflect the probability of being in the treatment group, as opposed to the control group, given a set of covariates.
显然,投放广告的干预组和未投放广告的对照组不是可比较组。投放广告的店铺店长年龄比较大,也许是公司特意把经验丰富的店长派到了销售额较低的地区。如果单纯从有无投放广告的角度对销售额进行比较,很可能得出广告对销售额具有负面效果的错误结论。
这种情况就正好可以用到倾向得分匹配法。
这样便可以得到干预组的30家店铺和对照组的30家店铺。
“因为上了偏差值高的大学,所以收入更高”(因果关系),抑或只是“潜在能力强、以后会进入高收入职业的人选择了偏差值高的大学”(相关关系)呢?
克鲁格等人采用每名考生“考上的大学和未考上的大学”进行了匹配。例如假设有两名考生考上了A大学和B大学,但没有考上C大学。他们考上和没考上的大学均相同,因此至少从用于判定大学入学考试合格与否的信息(高中成绩、教师推荐信、报考理由等)来看,二人是可比较的。
然后比较二人考上的两所大学,大学A的偏差值要比大学B更高。假设其中一人选择就读大学A,而另一人选择了专业对自己更有吸引力的位于当地的大学B。那么只要对这两个人进行比较,就能推算出就读偏差值高的大学对未来收入的因果效应。
匹配法的分析结果出乎意料。在考上某大学且就读于该大学的学生组(干预组)和同样考上该大学但最终选择了偏差值较低的其他大学的学生组(对照组)之间,毕业后的工资差异在统计学上不具有显著性。
第7章的关键词 匹配法
该方法运用能够影响结果的协变量,从对照组中选出和干预组相似的样本进行匹配,并对两个组进行比较。存在多个协变量时,也可以将它们整合成一个得分进行匹配(倾向得分匹配法)。匹配法成立的条件是影响结果的所有协变量均可观测。
假如现有数据都不适合用来评估因果关系……
在实际工作和生活中,绝大部分数据只是对经济活动结果的记录,并非以分析为目的而收集的(多数“大数据”都是这样)。遇到这种情况,随机对照试验或准实验大多没有用武之地。
多元回归分析则可以排除混杂因素的影响。多元回归分析使混杂因素的值保持固定不变,以便我们能够画出表示原因与结果的关系的“回归线”,并根据回归线的倾斜程度来评估因果效应。
“保持固定不变”也可以叫作“校正”、“控制”。
随机对照试验也有以下几点局限性。
随机对照试验并非绝对正确,也有自身的局限性。随机对照试验的证据等级之所以很高,只是因为可以确保满足判断因果关系的三个要点:(1)不是纯属巧合;(2)不存在混杂因素;(3)不存在逆向因果关系。反过来说,只要能在充分探讨的基础上确保满足以上三点,利用观测数据的研究也能成为有力证据。
奥巴马医改计划反而把美国的医疗制度改得更糟了。
对此,参与设计奥巴马医改计划的麻省理工学院医疗经济学家乔纳森・格鲁伯(Jonathan Gruber)答道:“