知识图谱对于产品经理的工作有着很大的帮助,能够建立更系统的设计流程,其应用核心在于深刻理解业务。
一、什么是知识图谱
1.1知识图谱的定义
知识图谱概念开始由谷歌公司(Google)提出,为了提升搜索引擎返回的答案质量,通过知识图谱的构建,去发现用户查询文本背后的语义信息,从而返回更准确的信息。
我们以李小龙为例,如果不用知识图谱,用户搜索“李小龙的儿子是谁”时,只能通过关键词搜索的方式分析网页中关键词包含“李小龙”“儿子”等关键词的网页。
但是,通过知识图谱搜索,可以精确搜索出准确答案,我们以搜狗搜索为例(见图1.1-1):
图1.1-1搜狗搜索结果
我们在搜索“李小龙的儿子是谁”的时候,首先会对这个文本进行语义识别,识别出来一个实体“李小龙”一个关系“儿子”,然后通过关系图谱就会精确查到实体与关系的指向(见图1.1-2),最终完成精确的检索。
通过知识图谱的辅助,搜索引擎通过背后的语义分析,返回更加精确,并且是结构化的数据。
图1.1-2李小龙的关系图谱
追本溯源知识图谱起源于上世纪60年代的语义网络。
语义网络(SemanticNetwork),是一种以网络格式表达人类知识构造的形式。它是由结点和结点之间的弧组成,结点表示概念(事件、事物),弧表示它们之间的关系。
语义网络是一种比较早的知识表达形式,它是一个带标示的有向图,各个节点表示知识中的物体、概念、实物等,点与点之间的链接。
“谁是谁的什么”的指向性关联关系,与语义网络类似,在知识图谱领域,是一些相互连接的实体以及属性构成。
所以,知识图谱本质上是语义网络,是一种基于图的数据结构。
因此从数据角度来看,知识图谱通过对结构化数据、非结构化数据、半结构化数据进行处理、抽取、整合,转化成“实体-关系-实体”(见图1.1-3)的三元组,然后聚合大量知识,实现快速的响应。
从应用层面来看,知识图谱是用来描述真实世界中存在的实体,以及他们之间的关系。
图1.1-3三元组案例
从不同视角,基于图1.1-3的案例,我们来看一下知识图谱在不同技术的理解。
从互联网视角来看,跟文本之间的超链接一样,通过图谱建立数据之间的语义链接。比如,张三的妻子是李四,通过图数据方式支持实体、实体之间的关系的检索。
从自然语言处理的角度来看,如何从非结构化数据、半结构化数据中提取数据,抽取其中的语义。比如,我们拿到张三的简历,简历上写出生地是河北,通过提取规则来获取到“张三”、“河北”这两个实体,以及“籍贯”这个关系,并机构化存储起来。
从人工智能视角来看,如何利用知识图谱来辅助理解人类的语言,并进行相应关系的查询和机器的推理。
1.2知识图谱的表示与存储
我们了解了知识图谱的概念,那么知识图谱是如何存储知识数据以及如何呈现出来的?作为产品经理理解知识图谱的表示与存储对我们有什么意义呢?这些问题将在本章中进行解释与回答。
1.2.1知识图谱的表示
所谓知识图谱的表示,是指计算机通过何种方式来表达真实世界中包含的知识数据。
知识图谱本质上就是语义网络的知识库,因此我们可以简单把知识图谱的表示理解为多关系图,基于向量空间学习的分布式知识表示。
我们知道图是由点和边来构成的。那在知识图谱中,用“实体”来表达图中的点,用“关系”来表单不同点之间的联系,例如图1.1-3,其中的圆形的代表实体,点与点之间的连线是叫关系。
实体是现实世界中的事物,比如人名、地名、公司名、药品名称、专业知识概念、在某些场景下年龄、性别等都可以作为实体;关系是不同实体之间的真实联系,比如李四是张三的妻子,张三的籍贯是河北等,里面的妻子、籍贯都是真实世界中的关系。
在现实世界社交网络中,我们可以找到好多实体,比图某某人、某某公司、某某人手机号、某某公司注册地址等都可以作为实体数据。实体与实体之间的关系也不是一成不变的,比如人与工作岗位的关系,并不是一成不变的,是根据人的工作年限,努力程度,其工作岗位会有变动。因此人与工作岗位的关系中可以有曾任职、现任职等关系,案例看图1.2-1。
图1.2-1某企业信用查询APP关于企业关系的图谱
从图1.2-1中我们可以看到有如下“实体-关系-实体”:
某某企业与某某企业间的参股关系;某某企业与某某人间的职位(总经理、董事长、董事等)关系;某某企业与某某人间的参股关系。因此我们可以从图中得知某某人、某某企业是实体;参股、总经理、董事长、监事等是关系。
知识图谱处理表达的实体与实体间的关三元组是知识图谱的核心。除此之外,可以表达实体的某些属性,可以通过属性图来表达,比如某某人的出生日期、比如某某人的曾用名、比如某某人的介绍等。
因此,知识图谱整体来说,是通过图数据的形式,来表达实体与实体间的关系,实体的相关属性的值。
1.2.2知识图谱的存储
通过知识图谱的表示,可以很直观看到知识图谱包含的知识数据,对于理解知识图谱的存储有很好的促进作用。
知识图谱主要有两种存储方式:
基于RDF的存储;基于图数据库的存储。由于RDF以三元组的方式来存储数据而且不包含属性信息,图数据库一般以属性图为基本的表示方式,常用Neo4j。因此所以实体和关系可以包含属性,能更容易表达现实的业务场景。
知识图谱的原始数据类型一般来说有三类:
结构化数据:如关系数据库;非结构化数据:图片、PDF、视频、音频、文本等;半结构化数据:百科知识、JSON、XML等。从以上数据中提取实体、关系、属性以及属性值。
做后台产品经理的,对关系型数据库并不陌生,有人会问了,按照图1.1-3不一定通过知识图谱通过关系图谱也可以达到效果了,比如建一个人员基本信息表,建一个用户间家庭关系,也可以查询到,如图1.2-2。
图1.2-2二维表关系表示
那么,知识图谱图数据存储方式到底跟关系型数据库道理有什么区别呢?
其实,关系型数据存储方式与图数据存储方式之间的作用不是非此即彼的,是相互配合使用的,根据不同的业务场景来使用。
图数据多关系的建模,关系型数据库是不同表之间的关系,如果关系太多对关系型数据库并不是很友好。在图数据库中可以把籍贯、职业拆分出来一个关系。
不仅如此,如果我们把身份证号作为一个实体,那么姓名、曾用名等都可以查分出来一个关系,这个是关系型数据库难以做到的。
因此。图数据库更加适用于通过实体的分析找到对业务有力的更多的关系。比如,我们把籍贯的地址可以拆出来多个关系,现居住地、曾居住地、出生地等,同样一个实体(河北)其实可以拆出来三种关系来满足不同业务场景。
因此,知识图谱更加
转载请注明:http://www.0431gb208.com/sjslczl/3711.html