作者
刘礼
历经三年时间,我们在年完成了图灵奖获得者、加州大学洛杉矶分校计算机科学教授,美国国家科学院院士,被誉为“贝叶斯网络之父”的朱迪亚·珀尔大作《因果论:模型、推理和推断》。
这本书原版的第1版写于年,开创了因果分析和推断的新思想和新方法,一出版就得到广泛的好评,促进了数据科学、人工智能、机器学习、因果分析等领域新的革命,在学术界产生了很大的影响。
后来又于年修订出了第2版,内容上结合当时因果研究的新发展,做了较大的改动。目前我们翻译的这本书英文原版是在年出版的,到目前已经有十多年了。
该书中文版的出版有利于广大中国学者、学生和各领域的实践人员了解和掌握因果模型、推理和推断相关的内容。特别是在当前统计学和机器学习流行的时代,如何实现从“数据拟合”到“数据理解”的转变?如何在下一个十年里,从“所有知识都来自数据本身”这一目前占据主流的假设到一个全新的机器学习范式?是否会引发“第二次人工智能革命”?
正如图灵奖授予珀尔时评价他的工作为“人工智能领域的基础性贡献,他提出概率和因果性推理演算法,彻底改变了人工智能最初基于规则和逻辑的方向。”我们期待这种范式能够为机器学习带来新的技术方向和前进动力,并且最终能够在实际应用中发挥作用。
正如珀尔所说“数据拟合目前牢牢地统治着当前的统计学和机器学习领域,是当今大多数机器学习研究者的主要研究范式,尤其是那些从事连接主义、深度学习和神经网络技术的研究者。”这种以“数据拟合”为核心的范式在计算机视觉、语音识别和自动驾驶等应用领域取得了令人瞩目的成功。但是,许多数据科学领域的研究人员也已经意识到,从当前实践效果来看,机器学习无法产生智能决策所需的那种理解能力。这些问题包括:稳健性、可迁移性、可解释性等。下面我们来看看例子。
数据统计靠谱吗?
近年来自媒体上的很多人都会觉得自己是统计学家。因为“数据拟合”“所有知识都来自数据本身”为许多重大决策提供了数据统计依据。但是,在进行分析时,我们需要谨慎分析。毕竟,事情可能并不总是乍看之下!一个与我们生活息息相关的案例。10年前,某城市市中心的房价是元/平米,共销售了万平;高新区是元/平米,共销售了万平;整体来看,该市的平均房价为元/平米。现在,市中心0元/平米,但由于市中心的土地供应少了,只销售了万平;高新区是元/平米,但由于新开发的土地变多了,销售了万平;整体来看,现在该市的平均房价为元/平米。因此,分区来看房价分别都涨了,但从整体上看,会有产生疑惑:为什么现在的房价反而跌了呢?
图1房价趋势按照不同区域划分后与总体结论相悖
我们知道这种现象叫作辛普森悖论。这些案例清楚地表明当我们没有给予足够的观察变量时,我们是如何从统计数据中得到了完全错误的模型和结论。就这次新冠大流行而言,我们通常会获得全国范围的统计数据。如果我们按地区或市县进行分组,我们可能会得出截然不同的结论。在全国范围内,我们可以观察到新冠病例数量在下降,尽管某些地区的病例数量会有所增加(这可能预示着下一波浪潮的开始)。如果存在差异很大的群体,例如人口差异很大的地区,则也可能会发生这种情况。在国家数据中,人口密度较低地区的病例激增可能与人口稠密地区的病例下降相形见绌。
类似的基于“数据拟合”的统计问题比比皆是。比如下面两个有趣的例子。
如果我们每年收集尼古拉斯·凯奇每年出演的电影数量和美国溺死人数的数据,我们会发现这两个变量高度相关,数据拟合程度奇高。
图2尼古拉斯·凯奇每年出演的电影数与美国溺死的人数
如果我们收集每个国家人均牛奶销售量和获得诺贝尔奖人数的数据,我们会发现这两个变量高度相关。
图3人均牛奶消费量与诺贝尔奖人数
从我们人类的常识认知来说,这些都是伪相关,甚至是悖论。但从数学和概率论的角度来看,表现出伪相关或者悖论的案例无论从数据上还是计算上都是没有问题的。如果有一些因果基础的人都知道,发生这种情况是因为数据中隐藏着所谓的潜伏变量,即未被观察到的混杂因子。
图4独立变量导致了两个变量之间伪相关
珀尔在《因果论》中给出了解决的范式,详细分析和推导了以上问题,强调了因果与统计之间有着本质的区别,虽然因果分析与推断仍然是建立在统计学的语境上。珀尔提出了干预操作(算子)的基本计算模式,包括后门原则和具体的计算公式,这是当前对于因果关系最为数学化的描述。“因果以及相关的概念(例如随机化、混杂、干预等)不是统计概念”,这是贯穿珀尔因果分析思想的一条基本原理,珀尔称之为第一原理[2]。
那么,目前基于数据驱动的机器学习方法,特别是那些严重依赖于统计学方法的算法,学习到的模型极大可能也会出现半真半假、误导性或者反转性的结果。这是因为这些模型往往是基于观察数据的分布情况进行学习,而非数据生成的机制。
机器学习亟需解决的三个问题
稳健性:随着深度学习方法的流行,计算机视觉、自然语言处理和语音识别等研究大量利用了最先进的深层神经网络结构。但仍然长期存在这样一个事实问题,即在现实世界中,我们采集到数据的分布通常很少是完整的,与实际世界中的分布可能不一致。在计算机视觉应用中,训练集与测试集数据分布可能受到来自诸如像素差、压缩质量,或来自于摄像机位移、旋转或角度等的影响。这些变量其实就是因果概念中的“干预”问题。由此,人们提出了简单的算法来模拟干预,以专门测试分类和识别模型的泛化能力,如空间偏移、模糊、亮度或对比度的变化、背景控制和旋转,以及在多种环境中采集的图像等。到目前为止,尽管我们利用数据增强、预训练、自监督学习等方法在稳健性上取得了一定的进展,但对于如何解决这些问题还没有明确的共识。有人认为这些修正可能是不够的,在独立同分布假设之外进行泛化不仅需要学习变量之间的统计关联,还需要学习潜在的因果模型,以明确数据生成的机制,并允许通过干预概念模拟分布变化。
可迁移性:婴儿对物体的理解基于跟踪随时间变化表现一致的物体,这样的方法可以让婴儿快速学习新的任务,因为他们对物体的知识和直观理解可以重复使用。类似地,能够高效地解决现实世界中的任务需要在新的场景中重用学习到的知识技能。研究已经证明,学习了环境知识的机器学习系统效率更高,通用性更好。如果我们将现实世界模型化,许多模块在不同的任务和环境中表现出相似的行为。因此,面对新环境或新任务,人类或者机器可能只需要调整其内部表示中的几个模块。当学习因果模型时,由于大多数知识(即模块)可以在无须进一步训练的情况下重复使用,从而只需要较少的样本以适应新环境或新任务。
可解释性:可解释性是一个微妙的概念,不能仅仅使用布尔逻辑或统计概率的语言完全描述,它需要额外的干预概念,甚至是反事实的概念。因果关系中的可操纵性定义
转载请注明:http://www.0431gb208.com/sjsbszl/4388.html