随着人工智能技术的普及,越来越多的应用开始朝人工智能的技术上靠。而应用最火的就是语音识别和图像识别。比如小米的小爱音响,你就可以跟它进行对话。而最近更火的是一款叫智能识物的应用,或者不能称为一款,更应该称为一系列类似的产品,因为有很多大公司都推出了相似的应用,比如有百度的看图识物、华为的智能识物,还有oppo、vivo随机搭载的识物应用。这些应用的定位都是极好的——当你看见不认识的物件时,你不用去请教老司机,尤其旁边还没有老司机的时候,你只需掏出你的手机,打开你的智能识物,对着这陌生物件,它就会很快就告诉你这东东的前世今生、甚至还能告诉你哪儿能买到。
然而,理想很丰满,现实很骨感,以下是一些网友分享的识物体验:
从体验看,这些智能识物更像一款治愈系的产品——可能对抑郁症有很好的疗效。
那么到底什么是智能识物?背后的技术原理是什么?
智能识物
从以上的文字和智能识物这四个字,我们也能猜出其核心功能就是用人工智能技术识别图像中的物,其数据的采集端口就是摄像头,效率更高的,我们可以直接用摄像头对着物件就能直接出结果,体验稍差点的,我们也可以拍一个照片,画出物件边界进行识别。其背后的原理就是用深度学习技术训练出来的模型作为基础,来对未知的图像进行识别。具体涵盖了图像处理、图像识别、图像检索、光学字符识别、搜索、知识图谱、机器翻译等多项技术。
在机器学习里,我们对学习的定义是有具体的任务的,也就是不存在一个很泛的学习任务,那样没法给出解法,或者没法给出一个有效率的解法。比如我们的任务是识别一只猫,那么我们的算法就是把猫的各种不同形态、不同品种的图片,喂给学习算法,经过大量的训练之后,我们就会得出一个模型,这个模型就能比较好的识别出猫这个物件,当然你给出的图片里必须有猫这个东西。
而我们的智能识物是做什么?是给一个未知的东西,几乎包括世界上的所有东西,然后交给机器去识别,可想而知其准确率会大打折扣。因为你给机器的学习任务很泛,很大。首先它得判断类别:是动物还是植物、是人还是武器,然后在这个类别里去识别具体的物件。如果搞错了类别,就会闹出笑话,比如把一棵树识别成了一个人名。
影响智能识物的技术因素
相似图像搜索技术
相似图像搜索技术,就是通过一定的特征提取手段,把图像从很大的一堆数变成较小的特征,方便存储并能用于检索。这项技术可以帮助我们从数据库中检索出图像纹理和款式类似的商品。可以说特征提取越有效,识别的速度就越快。如果你对着一个物件,1分钟还没结果,那么你这个应用用的人就很少了。
知识图谱
知识图谱是通过知识抽取,实体关系识别,知识融合等手段建立信息量巨大的知识仓库,从而我们就可以进行知识推理,得到我们想要的实体和关系等。这是识别出来之后的展示问题。比如你对着一堆水果中的苹果进行识物,它识别出来了苹果,那么你展现给用户的是苹果公司,还是水果苹果呢?
机器翻译
除了识别自然界的物件,并把相关的知识展现给用户。还有一个用得比较多的地方就是翻译。我们来到一个陌生的城市,看到一个陌生的话语,我们想知道什么意思,我们自然也想用智能识物来解答一二,这其中涉及的技术就是文字识别和机器翻译。文字识别用的比较多的一个技术就是光学字符识别。那么识别出来之后如何翻译成用户可懂的语言,就需要机器翻译技术。现在机器翻译的技术原理上就是概率统计——这句话,大部分人都这么翻,那么我们就这么翻了,不去考察里面的语法是否合理。可以说这种方法很有效,因为它基于一个常识:很多人都用这种方式去交流的,那么这种方式就是合理的。
交给用户手中的智能识物,用起来很简单,用摄像头对着想认识的物件,然后出一个结果,但其背后是最前沿的黑科技,从图像识别,到翻译搜索,每个步骤都不能保证完全不出错,而步骤之间还存在着误差传递,站在机器学习的角度,它是一个复杂的学习任务,要让它准确,就得让它进行大量学习,以及对技术的持续改进。
相信在不远的将来,智能识物能像一个真正的智者,能告知你不认识的任何物件。
但目前而言,智能识物似乎步子迈得过大,不如先从某个具体的类别开始会不会更好?
转载请注明:http://www.0431gb208.com/sjszjzl/3548.html