解决掉这些痛点和难点,让知识图谱不再是

来源：语言识别时间：2023/3/2

白癜风脱色 http://pf.39.net/bdfyy/bdfhl/141229/4546830.html

（图片付费下载自视觉中国）

作者

夕颜

年，谷歌正式提出知识图谱的概念，当时，研究人员的主要目的是用来优化搜索引擎技术。今年初，谷歌前员工，同时是图数据库服务企业Dgraph创始人ManishRaiJain站了出来，在一篇文章中回顾了Dgraph这个数据库产品的前世今生，也顺道爆料了一些谷歌这么多年没能搞定知识图谱的内幕，包括公司内部斗争，项目发展方向多次被误导等。

7年过去了，谷歌搜索引擎已经一定程度上变成一个知识搜索引擎，但是仍然未达到让人十分满意的结果，比如某些关键词搜索虽然可能比之前的精度高了不少，但是大部分情况下，想要解决自己的实际问题，仍然需要执行多次关键词搜索，从中解析和提取他们需要的信息，然后将完整的结果组合在一起，未能实现当初用户可以得到一个类似知识库的搜索结果的设想。

但这一切都阻挡不了知识图谱概念迅速“蹿红”，并被应用到各行业和领域中，如百度的“知心”，搜狗的“知立方”，IBM的Watson等。现在，几乎每家互联网公司在宣传中都会将知识图谱作为卖点，但究竟知识图谱在他们的产品和服务中只是一个商业噱头，还是真的让产品变得更好用，实际上还有待查证。

知识图谱是什么？

知识图谱（KnowledgeGraph)以结构化的形式描述客观世界中概念、实体及其关系，将互联网的信息表达成更接近人类认知世界的形式，提供了一种更好地组织、管理和理解互联网海量信息的能力。更通俗地讲，知识图谱是由一些相互连接的实体和他们的属性构成的，即由一条条知识组成，每条知识表示为一个SPO(Subject-Predicate-Object)三元组，查询必须是[SP]→[O]、[PO]→[S]，有时候是[SO]→[P]。这些三元组相互关联，构筑成一个类人脑的信息处理结构，并且具有近乎无限的信息扩充空间和成长性。

与之对应的知识图谱技术，则是指知识图谱建立和应用的技术，是融合认知计算、知识表示与推理、信息检索与抽取、自然语言处理与语义Web、数据挖掘与机器学习等方向的交叉研究。

当前，人工智能其实可以简单划分为感知智能（主要集中在对于图片、视频以及语音的能力的探究）和认知智能（涉及知识推理、因果分析等），知识图谱就是认知智能领域中主要的技术之一。

年谷歌提出知识图谱的概念之后，这项技术迅速火爆，在互联网语义搜索、智能问答带来了活力，让人工智能具备认知能力和逻辑能力，进而实现智能分析、智能搜索、人机交互等场景应用，成为互联网知识驱动的智能应用的基础设施。从此之后，知识图谱与大数据和深度学习一起，成为推动互联网和人工智能发展的核心驱动力之一。

行业应用现状

根据中国中文信息学会和语言与知识计算专委会发布的年《知识图谱发展报告》，当前，知识图谱已经在知识融合、语义搜索和推荐、问答和对话系统、大数据分析与决策中凸显出越来越重要的作用。

根据使用范围来划分，知识图谱可以分为通用知识图谱和领域知识图谱。通用知识图谱可以形象地看成一个面向通用领域的“结构化的百科知识库”，其中包含了大量现实世界中的常识性知识，覆盖面极广，主要应用于面向互联网的搜索、推荐、问答等业务场景。

领域知识图谱又叫做行业知识图谱或垂直知识图谱，通常面向某一特定领域，可看成是一个“基于语义技术的行业知识库”。领域知识图谱基于行业数据构建，通常有着严格而丰富的数据模式，对该领域知识的深度、知识准确性有着更高的要求，目前在金融、医疗、司法等领域已经成为基础数据服务，为上层智能应用提供基础设施支撑。

然而，正如文章开篇便提到的问题，即使是像谷歌这样体量巨大、资源充足，同时是知识图谱“开山鼻祖”的公司，在将知识图谱应用于产品和服务时尚且会遭遇瓶颈和困难，更不用说一些中小企业。

AI科技大本营：一直以来大家其实对于华为做知识图谱这块是了解比较少的，您是否可以介绍一下华为在知识图谱这块的起步、发展现状和已经取得的成果？

袁晶：华为云虽然成立的时间比较晚，但是处于加速奔跑状态，从年开始上线了认知AI相关服务，包括自然语言处理、对话机器人等。从年下半年开始布局知识图谱云服务和知识计算解决方案。不久前，华为云发布了业界首个企业级知识图谱云服务，帮助企业和政府构建知识图谱，提供涉及知识获取、建模、管理和应用等不同维度的流水线式组件和服务。目前，华为云知识图谱服务已应用于多个行业，包括能源、政务、医疗、基因等不同行业和领域，利用智能化知识抽取、多源异构融合技术，让产品真正发挥价值。

AI科技大本营：知识图谱在各个行业落地时有哪些难点和痛点？

袁晶：越来越多的企业表示要构建知识图谱，但在落地过程中会发现一些问题，比如通常情况下构建图谱的数据存在多源异构的情况。所谓多源是指来源于不同的数据，异构数据可能是结构化的，有可能是半结构化，也有可能是非结构化的，而且彼此schema各不相同，如何把领域内多源异构数据融合起来，构建统一完整的领域知识图谱是一个重要的挑战。

再如经常被提到的知识抽取的问题，如何从大量异构文本中抽取三元组，抽取实体、抽取关系，都是很关键且有挑战的技术。总的来说，整个知识图谱构建过程中有很多这样的技术环节，算法与系统的结合也是很大的挑战。

AI科技大本营：最近一段时间，我们可以看到领域知识图谱其实发展势头比较迅猛，以您的观察来看，哪些领域里知识图谱做得比较好？

袁晶：目前，不同领域都在做知识图谱方向的尝试。相对来说，数据规范度比较好的行业应用知识图谱可能更加高效，比如金融领域和法律领域，这些领域的知识丰富度和文本规范度较高，因而能够比较快产生一些直接可见的应用。我们近期和中石油合作构建了油气行业知识图谱，也取得了一些很有价值且令人惊喜的成效，比如在测井解释领域，极大地节省了测井专家的时间，并利用图表征等技术提升了测井油气层识别准确率。

AI科技大本营：目前，知识图谱在行业应用里有哪些亟待突破的问题？哪些学术成果可以为知识图谱的的落地提供帮助？以及未来在知识图谱这块学术界和业界有哪些值得注意的问题？

袁晶：学术界很早就已经开始知识图谱相关的研究了，但在企业将之落地的过程其实与学术界的场景还是有所差异，比如多源异构数据的融合在实际应用场景中很复杂，而且涉及到的数据集往往数据质量本身也有问题，而学术界一般会有一些标准的数据集，在这样的数据集基础上专注在把某个算法或某项技术做到极致。

知识图谱这块新的趋势和方向有很多，比如图表征以及多模态知识图谱，如何把数据从传统的文本数据扩展到图像、语音等不同模态，构建和应用多模态知识图谱是一个值得

转载请注明：http://www.0431gb208.com/sjslczl/3576.html

上一篇文章：如何利用VRAI人工智能和全息技术,提

下一篇文章： NLP和计算机视觉在AI教育的那些年,数