AI30面向人类读者的通识读本

来源：语言识别时间：2023/1/8

我真的很喜欢读梅勒妮·米切尔的《AI3.0》。作者是计算机科学教授和人工智能(AI)研究员。这本书是她的一次尝试，试图弄清楚奇点迫近是否存在(或者至少可能存在)，或者我们是否还远远没有创造出任何真正的智慧。在这个过程中，读者可以得到图像识别、游戏和自然语言处理等领域的最新技术的优秀概述。尽管它的目标读者是一般读者，但我发现它的技术内容非常好。

看到一个神经网络从随机权重开始，经过训练，能够做出好的预测，这几乎是不可思议的。然而，与此同时，我并不认为网络在任何方面都是智能的。对我来说，这更像是一种统计形式的巧妙运用。

当我与其他软件开发人员交谈时，我发现他们中的许多人都认为我们正朝着奇点前进。或者至少5级自动驾驶汽车迫在眉睫(“你什么时候觉得人类开车是违法的?”).我很难看到通向这个目标的道路，梅勒妮·米切尔也同样持怀疑态度。

在本书的导言部分，她解释了像雷·库兹韦尔这样的“奇点主义者”的观点。它可以归结为指数增长的力量-随着越来越强大的计算机，我们将很快能够再造人类水平的智能。当然也有人对此持怀疑态度，例如，他们指出指数增长更多地应用于硬件而不是软件。在任何情况下，通过阅读和解释今天各种版本的人工智能是如何工作的，米切尔给读者提供了更多的信息来找到他们的观点。在这个过程中，你可以学到很多关于人工智能技术的知识。

下面是我最喜欢的书的不同部分的摘要。尽管章节很短，她还是设法在里面包含了大量的相关信息。

历史

尽管制造能够思考的机器的想法已经存在了很长时间，但人工智能的起源可以从年达特茅斯学院的一个夏季工作坊中找到。这一领域的“四大”先驱出席了会议JohnMcCarthy、MarvinMinsky、AllenNewell和HerbertSimon。在早期，人们非常乐观。赫伯特·西蒙曾预言:“机器将能在二十年内完成人类能做的任何工作。”。

人工智能的方法很快分裂成不同的方向。符号人工智能和次符号（Subsymbolic）人工智能的一个重要区别。在符号人工智能中，目标是建立一个能像人类一样解决问题并进行推理的系统。这种方法包括编纂规则并加以应用。这个想法统治了人工智能领域的前三十年，并产生了所谓的专家系统。

次符号人工智能试图重现部分无意识的过程，例如，识别一张脸，或者识别说出的话。这种方法是为了模拟大脑神经元的工作方式。弗兰克·罗森布拉特在20世纪50年代末发明了感知器。它是一些输入的总和，乘以不同的权重。如果和大于阈值，则生成输出1(它“触发”)，否则生成输出0。这就是今天神经网络的基石，用于图像识别等。

事实证明，人工智能比预期的要难得多。正如MarvinMinsky后来所言:“看起来容易的事情总是很难。”。人工智能的最初目标——能够使用自然语言进行交流，描述他们所看到的，并且只从少数例子中学习的计算机——是幼儿能够轻松做到的事情。但是很难让机器来做这件事。当结果没有实现，资金枯竭，“人工智能的冬天”随之而来。

图像识别

过去十年图像识别技术的巨大进步来自人工智能的亚符号分支。Mitchell介绍了如何使用带有反向传播的神经网络对手写数字图像进行处理。一个网络是由若干层构成的，每一层由许多类感知器单元组成。通常在输入层每个像素有一个单位。然后是一些隐藏层，最后是一个输出层，指出它是什么类型的图片。一个层中的所有单元都连接到相邻层中的所有单元。每个单元的权重决定了它将提供什么输出，并且这些权重在训练期间进行调整。错误(与预期输出相比的输出)决定了应该更改多少权重。这些错误修正通过各个层传播回去。经过多轮训练后，网络被配置为基于输入的预测。

然后，她继续描述了在对图像进行分类时，如何利用卷积建立图像中较大结构的表示，比如边缘和形状。这些系统需要标记图像进行训练。有一些标准的图像集合用于比较图像分类系统的性能。其中一个就是ImageNet，由万张带标签的图片组成。亚马逊的土耳其机器人系统被用来让人们给许多图片贴标签。

批评:虽然今天的图像识别系统确实令人印象深刻(例如Facebook的面部识别)，但它们也存在一些问题。人们常说他们是“自学”的。但是除了需要标记输入之外，还需要设置许多超参数。例如，网络中的单元数和层数，以及学习速度。这些设置可以对神经网络的性能有很大的影响，而且目前找到正确的组合更多的是艺术而不是科学。

还有一些对抗性的例子。研究人员发现，你可以拍摄一张校车的照片，然后改变一些人类无法察觉的像素，但是这样会欺骗系统将其错误分类，比如说，一只鸵鸟。还有一些方法可以生成看起来像随机噪声的图片，但是这些图片有99%的可能性是一个特定的物体。这些对抗性的例子提出了一个问题:“准确地说，这些网络在学习什么?”

还有一些例子表明，这个问题的答案并不是你所期望的。其中一个系统被训练来区分风景画和动物画。它工作得很好，直到它被发现，它只区分模糊或锐利的背景。原因是大多数动物的照片都是对准动物的，背景模糊，而风景照片都很清晰。同样，这也不是我们所期待的。然而，你确实希望系统能够识别出人类没有注意到或者看不到的特征。问题是很难知道这些特征是什么。

游戏

这一部分从一个关于强化学习如何工作的玩具例子开始。一只机器狗正在被训练踢足球。随机的动作被执行，当一系列的动作导致一个成功的结果(球被踢)，这被记录为做更多的事情。然而，在训练过程中，你有时也必须尝试新的动作，即使你已经找到了一些成功的动作。这是为了探索潜在行为的整个空间(探索与开发)。为了知道要执行哪些以前成功的操作，您需要存储状态和操作，以及这些操作估计会获得的相应值。对于机器狗来说，状态可能是它的位置和球的位置，动作是移动的，是否踢球。状态、动作和值被存储在一个被称为Qtable的表中，这种形式的强化学习有时被称为Q学习。

DeepMind使用强化学习学习(Q-learning)，结合深层神经网络，当它制造出可以玩经典的Atari电脑游戏的系统时。他们称这种方法为深度Q学习。这些情况下的状态是当前帧(当前屏幕的像素)，以及前面时间步骤中的三个帧。为了选择一个动作(左突破划桨，右划桨，或无划桨)，使用一个卷积神经网络(类似于图像分类)。需要一个技巧来更新权重，因为没有像标记图片那样的已知答案。

在强化学习，一个行动的价值是在训练结束时所获得的奖励的估计，如果这个行动被采取的话。这个估计在节目快结束的时候应该会更准确。诀窍是假设网络的当前输出比它在前一次迭代中的输出更接近正确。因此，所采用的策略是最小化当前迭代和前一次迭代之间的差异。这样，网络就学会了使每次迭代的输出保持一致。这就是所谓的时序差分学习。在许多情况下，这些系统学会了比人类更好地玩Atari游戏。

本节还将介绍另外两个游戏程序。第一个是年在国际象棋比赛中击败加里·卡斯帕罗夫的IBM深蓝。这个程序通过从一系列可能的动作树中评估未来可能的位置，然后使用极大极小算法来决定要做什么动作。另一个是也许最著名的游戏例子-年在围棋比赛中击败李世石的AlphaGo。

DeepMind的AlphaGo与深蓝类似，它分析博弈树中的移动序列。但也有一些差异使围棋成为一项更艰巨的挑战。围棋中有更多的潜在动作，所以动作树更大。此外，还没有人能够提出一个好的评价函数，以评价一个给定的板配置是多么好。因此AlphaGo使用蒙特卡罗树搜索。由于不可能探索游戏树中所有可能的移动，它随机挑选一些(蒙特卡洛部分)，并发挥这些，直到游戏结束在一个胜利或失败。沿途的行动也是随机挑选的。模拟比赛直到比赛结束，这样的挡拆叫做从那个位置开球。推出的结果(赢或输)用于更新每个位置移动都很好的统计数据。AlphaGo每回合的滚出次数接近次，所以最终的统计数据会变得相当不错。

蒙特卡洛树搜索是以一个深刻的卷积神经网络为补充的。网络被训练为从当前位置开始的所有可能的移动分配粗略的值。ConvNet表明哪些举措是推出的好候选者。推出之后，通过反向传播，更新哪些步骤是好的值用于更新ConvNet的输出。最终，ConvNet将学会识别模式。这个程序通过自己玩游戏得到了改进，大约玩了万次。因此，AlphaGo结合了强化学习、蒙特卡罗树搜索和深度卷积神经网络。

批评:这些成功的游戏让DeepMind声称，他们已经证明了“......即使在最具挑战性的领域，在没有人类范例或指导的情况下，即使没有基本规则以外的领域知识，也有可能训练到超人的水平”。不过，虽然战胜李世石令人印象深刻，但重要的是要记住，AlphaGo下围棋的技巧只对下围棋有用。他们在其他任何游戏中都没有帮助，更不用说在其他任务中了。换句话说，没有“迁移学习”。

此外，许多现实世界中的任务没有一个像游戏中的状态那样容易定义的状态。同样的道理也适用于评估一个行为的效果。此外，至少在AlphaGo的案例中，在决定使用蒙特卡洛树搜索以及为ConvNet设置超参数时，都有人为的指导。

语言

自然语言处理(NLP)是指让计算机处理人类语言。一个例子是情绪分类，其目标是自动化一个短句是积极的还是消极的。例如，对于像“对于我的口味，这部电影太暗黑了”这样的影评，评论者是否喜欢这部电影？一些早期的自然语言处理系统通过观察单个词的出现来确定情绪。例如，上面例子中的“dark”可能表示否定的观点。然而，在“尽管主题沉重，但有足够的幽默感来避免它变得太黑暗”中，情绪是积极的，即使“dark”再次出现。

仅仅看单个的单词并不足以捕捉句子的意思。其中一个改进就是使用递归神经网络。它处理两个问题——可变长度的输入(句子)，以及句子中词语顺序的重要性。与用于图像分类的神经网络不同的是，隐藏单元也与自身和其他隐藏单元(循环连接)有联系，句子是按时间步骤(每个单词一步)处理的。输出(积极或消极的情绪)只是在所有的文字被处理之后的输出。循环连接允许它在记忆上下文时处理每个单词(句子中前面的单词)。

还有一个问题——神经网络的输入必须是数字。如何将输入的单词编码为数字？一种方法是独热编码。如果你有20,个单词，你为每个单词做一个插槽。当一个给定的单词出现时，它的插槽是1，而其他所有的插槽都是0。这种方法的问题在于没有办法知道两个词的意思是否相近。例如，讨厌和不喜欢应该具有大致相同的含义，但独热的编码不会捕捉这种关系。

输入word2vec。年，谷歌的研究人员想出了一个聪明的方案，将单词表示为维空间中的向量。作为输入，他们使用了来自谷歌新闻的大量文本。对于每个句子，他们创建了所有挨着出现的词对(不包括所有像a和the这样的短词)。例如，“amanwentintoarestaurantandorderedahamburger”将创建对(man，went)、(went，into)、(into，restaurant)、(restaurant，ordered)和(ordered，hamburger)。这些词组，以及相反的词组，如汉堡包，被用来训练一个规则的神经网络来预测哪些词会挨着另一个出现。

在这种情况下，对输入和输出都使用了独热编码。举个例子，如果有,个不同的单词，那么神经网络将有,个输入，和,个输出。隐藏层有个单位。当网络经过数十亿个词对的训练后，对于一个给定的输入词，它能够指出输出词出现在给定的输入词旁边的可能性有多大。例如，如果输入是hamburger，则输入中相应的槽位为1，其他所有槽位为0。在,个输出插槽中，较高的值表示其对应的单词可能出现在汉堡包旁边。

现在来说说我的聪明之处:对于每个单词，个隐藏单位上的值用来构成该单词的向量。这意味着对于这,个单词中的每一个，都会创建一个个元素的向量。这个向量与具有相似意义的单词类似。例如，接近法国的单词是西班牙、比利时、荷兰、意大利等等，因为它们都出现在句子的相似上下文中。同样，与汉堡相近的词是汉堡，芝士汉堡，三明治，热狗，玉米饼和薯条。

例如，在Google翻译中使用了向量这个词。当从英语翻译成法语时，输入句子中的单词被转换成相应的向量。然后递归神经网络按照时间步骤对句子进行编码(每个单词一个)。句子现在被编码在隐藏单位的激活中。这种编码作为解码器网络的输入也包括阅读理解。

阅读理解的一个困难的例子就是确定“它”指的是什么。例如:

第一句:“我把瓶里的水倒进杯子里，直到杯子满了。”

问题:“什么东西是满的?”a。瓶子。b。杯子。

第二句:“我把瓶里的水倒进杯子里，直到杯子空了。”

问题:“什么是空的?”a。瓶子。b。杯子。

这种测试被称为Winograd模式，以NLP研究先驱TerryWinograd的名字命名。在撰写本书时，任何程序的最佳表现是61%——比随机猜测要好，但远低于人类的表现。由于这些类型的语言问题通常需要某种形式的现实世界知识(如果你从瓶子里倒水，它就变成空的，而不是满的)，有人建议用一系列这类问题来替代图灵测试。

批评。自然语言处理的许多领域都取得了巨大的进步。但是为了获得更高的准确性，似乎需要真正理解文本，仅仅通过文本查找模式是不够的。

意义与理解

尽管迄今为止所描述的各种系统都取得了成功，但它们的一个共同弱点是，它们没有真正的”理解”。例如，最先进的图像识别系统不理解图片中的内容，即使它能够正确地对其进行分类。这本书的最后几章讨论了获得真正理解需要什么。

首先，米切尔讨论了人类对世界的所有隐性知识。我们知道世界上的物体是如何运作的。如果你掉下一个物体，它就会掉下来，当它落到地面时，它就会停下来，反弹，或者可能破裂。一个隐藏在另一个物体后面的物体仍然存在。这就是所谓的直觉物理。还有直觉生物学——我们知道狗可以自己移动，但婴儿车不能。我们也可以想象可能发生的不同情况。许多这些能力可以解释为来自我们体验物质世界。也许具象化也是人工智能系统所需要的，因为人工智能系统可以像我们一样理解世界。

还有一个有趣的抽象和模式发现示例:Bongard问题。我以前从未见过这些作品，但它们在GEB中有出现。它们由左边的6个图形和右边的6个图形组成。目的是弄清楚左边的六个和右边的六个有什么不同。例如，左边的所有图片可以是一个大对象和一个小对象，而右边的图片都包含两个小对象。这是一个很难用程序解决的问题，但对人类来说却容易得多。

米切尔自己关于类比制作的研究也有一个有趣的例子。如果abc改为abd，应该如何改变pqrs。大多数人会回答pqrt(将最后一个字母替换为字母表中的后续字母)。但是还有其他可能的答案，比如pqrd(将最后一个字母替换为d)。学习编写能够自动执行这类任务的程序的尝试是非常有趣的。最后，该书还列出十个米切尔对人工智能未来的问题及回答。

结论

也许有一天会出现人工通用智能(AGI)。但是现有的技术看起来并不能把我们带到那里，至少它们本身不能。尽管如此，我认为今天的人工智能系统是非常了不起的工程壮举，而且非常有用。这本关于当前系统如何工作的书读起来很有趣。它清晰，简洁，非常有趣，我从中学到了很多。

翻译自：

转载请注明：http://www.0431gb208.com/sjslczl/2929.html

上一篇文章：科普人工智能人类科学进步的结晶

下一篇文章：全球脑科学最新研究什么是最好的学习