本文作者将从四类具体应用的实现上,看看AI技术给我们生活带来哪些便利,以及存在哪些局限?enjoy~
如果把AI技术分为「前端的交互技术」和「后端的人工智能技术」。前端的交互技术包括语音识别、图像识别和自然语言处理;后端的人工智能技术就是人工智能的核心算法,包括深度学习算法、记忆预测模型算法等。
这些前后端的人工智能技术在应用又可分为四类:语音识别、图像识别、自然语言处理和用户画像。那么在这四类具体应用的实现上AI技术给我们生活带来哪些便利,同时存在哪些局限?下面一一来解构:
一、语音识别
语音识别
语音识别有两个技术方向,一个是语音的识别,另一个是语音的合成。
语音识别是指我们自然发出的声音需要机器转换成语言符号,通过识别和理解过程把语音信号转变为响应的文本或命令,然后再与我们交互。语音识别技术可以应用在电话销售上,例如:公司新人特别多,没有经验,拿到单子的可能性很低。怎么才能让新人也能有很优秀的销售能力呢?过去的做法是,把经验总结成册子,让新人去背,很容易就忘了。但如果有了高精度的语音识别能力,就能识别出客户在问什么,然后在屏幕上告诉新人,该怎么回答这个问题。
语音识别的第二个方向是语音的合成,是指机器把文字转换成语音,并且能够根据个人需求定制语音,然后念出来。以前的声音是那种匀速的、没有语调起伏的机器声音,现在能用比较自然的人声。语音合成能模拟任何一个你喜欢的人的说话方式,可以做到每个人听的东西都不一样。我们驾车经常使用的百度导航里李彦宏的声音就是语音合成的结果。
尽管深度学习被引入语音识别后,识别率迅速提升到95%,但要将ASR(自动语音识别)从仅在大部分时间适用于一部分人发展到在任何时候适用于任何人,仍然是不现实的。一个无法突破的问题就是语义错误。例如:生活在南京的人都知道有个地方叫卡子门(kazimen),但是百度导航在理解卡子门的时候,会分词为:“卡子-门”,结果卡子门(kazimen)就被读成了卡子门(qiazimen)。
二、图像识别
计算机视觉
图像识别就是我们常说的计算机视觉(CV)。常用在:印刷文字识别、人脸识别、五官定位、人脸对比与验证、人脸检索、图片标签、身份证光学字符识别(OCR)、名片OCR识别等领域。
人类认识了解世界的信息中大部分来自视觉,同样,计算机视觉也成了机器认知世界的基础,其终极目的就是让计算机能像人一样“看懂世界”。目前计算机视觉在人脸识别、图像识别、增强现实等方面有很好的应用,但也存在一定的挑战。我们就拿谷歌的无人驾驶来说,通过机器视觉识别的技术路径在现阶段,仍有完全无法逾越的技术难题。
不谈算法,图像的摄取精度就是难关,即使最顶级的摄像设备都无法达到人眼的细节获取能力,看看最顶级的哈苏相机配合最顶级镜头,在夜晚街头短曝光时间下拍的照片,对比人眼看到的图像就能看到差异,这还不谈经济上可行的低成本摄像设备,视觉识别自动驾驶这个系统,眼睛就是近视眼。
而且如果下雨,灰尘等对分辨的影响都是很难解决的bug。如果配合雷达的话又有逻辑判断优先的问题,信摄像头,还是信雷达?会不会误报?而作为激光雷达,如果单纯的车身自己也有同样的逻辑判断的问题,什么样的东西是有威胁的,什么是无威胁的。什么是潜在的威胁,这都不是计算机视觉这种单一智能所能解决的。因为预测未来的感知能力,是人与机器最大的区别。
三、自然语言处理(NLP)
贤二机器僧
自然语言是人类智慧的结晶。自然语言处理(NLP)是人工智能中最为困难的问题之一。由于理解自然语言,需要关于外在世界的广泛知识以及运用操作这些知识的能力,自然语言认知,同时也被视为一个人工智能完备(AI-
转载请注明:http://www.0431gb208.com/sjszlff/1216.html