毕业论文
您现在的位置: 语言识别 >> 语言识别资源 >> 正文 >> 正文

解决掉这些痛点和难点,让知识图谱不再是

来源:语言识别 时间:2023/3/2
白癜风脱色 http://pf.39.net/bdfyy/bdfhl/141229/4546830.html

(图片付费下载自视觉中国)

作者

夕颜

年,谷歌正式提出知识图谱的概念,当时,研究人员的主要目的是用来优化搜索引擎技术。今年初,谷歌前员工,同时是图数据库服务企业Dgraph创始人ManishRaiJain站了出来,在一篇文章中回顾了Dgraph这个数据库产品的前世今生,也顺道爆料了一些谷歌这么多年没能搞定知识图谱的内幕,包括公司内部斗争,项目发展方向多次被误导等。

7年过去了,谷歌搜索引擎已经一定程度上变成一个知识搜索引擎,但是仍然未达到让人十分满意的结果,比如某些关键词搜索虽然可能比之前的精度高了不少,但是大部分情况下,想要解决自己的实际问题,仍然需要执行多次关键词搜索,从中解析和提取他们需要的信息,然后将完整的结果组合在一起,未能实现当初用户可以得到一个类似知识库的搜索结果的设想。

但这一切都阻挡不了知识图谱概念迅速“蹿红”,并被应用到各行业和领域中,如百度的“知心”,搜狗的“知立方”,IBM的Watson等。现在,几乎每家互联网公司在宣传中都会将知识图谱作为卖点,但究竟知识图谱在他们的产品和服务中只是一个商业噱头,还是真的让产品变得更好用,实际上还有待查证。

知识图谱是什么?

知识图谱(KnowledgeGraph)以结构化的形式描述客观世界中概念、实体及其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。更通俗地讲,知识图谱是由一些相互连接的实体和他们的属性构成的,即由一条条知识组成,每条知识表示为一个SPO(Subject-Predicate-Object)三元组,查询必须是[SP]→[O]、[PO]→[S],有时候是[SO]→[P]。这些三元组相互关联,构筑成一个类人脑的信息处理结构,并且具有近乎无限的信息扩充空间和成长性。

与之对应的知识图谱技术,则是指知识图谱建立和应用的技术,是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等方向的交叉研究。

当前,人工智能其实可以简单划分为感知智能(主要集中在对于图片、视频以及语音的能力的探究)和认知智能(涉及知识推理、因果分析等),知识图谱就是认知智能领域中主要的技术之一。

年谷歌提出知识图谱的概念之后,这项技术迅速火爆,在互联网语义搜索、智能问答带来了活力,让人工智能具备认知能力和逻辑能力,进而实现智能分析、智能搜索、人机交互等场景应用,成为互联网知识驱动的智能应用的基础设施。从此之后,知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发展的核心驱动力之一。

行业应用现状

根据中国中文信息学会和语言与知识计算专委会发布的年《知识图谱发展报告》,当前,知识图谱已经在知识融合、语义搜索和推荐、问答和对话系统、大数据分析与决策中凸显出越来越重要的作用。

根据使用范围来划分,知识图谱可以分为通用知识图谱和领域知识图谱。通用知识图谱可以形象地看成一个面向通用领域的“结构化的百科知识库”,其中包含了大量现实世界中的常识性知识,覆盖面极广,主要应用于面向互联网的搜索、推荐、问答等业务场景。

领域知识图谱又叫做行业知识图谱或垂直知识图谱,通常面向某一特定领域,可看成是一个“基于语义技术的行业知识库”。领域知识图谱基于行业数据构建,通常有着严格而丰富的数据模式,对该领域知识的深度、知识准确性有着更高的要求,目前在金融、医疗、司法等领域已经成为基础数据服务,为上层智能应用提供基础设施支撑。

然而,正如文章开篇便提到的问题,即使是像谷歌这样体量巨大、资源充足,同时是知识图谱“开山鼻祖”的公司,在将知识图谱应用于产品和服务时尚且会遭遇瓶颈和困难,更不用说一些中小企业。

AI科技大本营:一直以来大家其实对于华为做知识图谱这块是了解比较少的,您是否可以介绍一下华为在知识图谱这块的起步、发展现状和已经取得的成果?

袁晶:华为云虽然成立的时间比较晚,但是处于加速奔跑状态,从年开始上线了认知AI相关服务,包括自然语言处理、对话机器人等。从年下半年开始布局知识图谱云服务和知识计算解决方案。不久前,华为云发布了业界首个企业级知识图谱云服务,帮助企业和政府构建知识图谱,提供涉及知识获取、建模、管理和应用等不同维度的流水线式组件和服务。目前,华为云知识图谱服务已应用于多个行业,包括能源、政务、医疗、基因等不同行业和领域,利用智能化知识抽取、多源异构融合技术,让产品真正发挥价值。

AI科技大本营:知识图谱在各个行业落地时有哪些难点和痛点?

袁晶:越来越多的企业表示要构建知识图谱,但在落地过程中会发现一些问题,比如通常情况下构建图谱的数据存在多源异构的情况。所谓多源是指来源于不同的数据,异构数据可能是结构化的,有可能是半结构化,也有可能是非结构化的,而且彼此schema各不相同,如何把领域内多源异构数据融合起来,构建统一完整的领域知识图谱是一个重要的挑战。

再如经常被提到的知识抽取的问题,如何从大量异构文本中抽取三元组,抽取实体、抽取关系,都是很关键且有挑战的技术。总的来说,整个知识图谱构建过程中有很多这样的技术环节,算法与系统的结合也是很大的挑战。

AI科技大本营:最近一段时间,我们可以看到领域知识图谱其实发展势头比较迅猛,以您的观察来看,哪些领域里知识图谱做得比较好?

袁晶:目前,不同领域都在做知识图谱方向的尝试。相对来说,数据规范度比较好的行业应用知识图谱可能更加高效,比如金融领域和法律领域,这些领域的知识丰富度和文本规范度较高,因而能够比较快产生一些直接可见的应用。我们近期和中石油合作构建了油气行业知识图谱,也取得了一些很有价值且令人惊喜的成效,比如在测井解释领域,极大地节省了测井专家的时间,并利用图表征等技术提升了测井油气层识别准确率。

AI科技大本营:目前,知识图谱在行业应用里有哪些亟待突破的问题?哪些学术成果可以为知识图谱的的落地提供帮助?以及未来在知识图谱这块学术界和业界有哪些值得注意的问题?

袁晶:学术界很早就已经开始知识图谱相关的研究了,但在企业将之落地的过程其实与学术界的场景还是有所差异,比如多源异构数据的融合在实际应用场景中很复杂,而且涉及到的数据集往往数据质量本身也有问题,而学术界一般会有一些标准的数据集,在这样的数据集基础上专注在把某个算法或某项技术做到极致。

知识图谱这块新的趋势和方向有很多,比如图表征以及多模态知识图谱,如何把数据从传统的文本数据扩展到图像、语音等不同模态,构建和应用多模态知识图谱是一个值得

转载请注明:http://www.0431gb208.com/sjslczl/3576.html