毕业论文
您现在的位置: 语言识别 >> 语言识别介绍 >> 正文 >> 正文

数据智能论坛苏海波知识图谱技术及行业应用

来源:语言识别 时间:2023/3/2
头上白癜风怎么治 http://m.39.net/pf/a_4640703.html

当下,数据量激增,大数据与人工智能技术交叉融合态势日趋增强,使得从数据到知识的转换过程及应用也在发生多重「智变」。为探寻如何利用这些「智变」驱动应用,8月27日,百分点科技与机器之心联合举办了「数据智能技术实践论坛」,邀请业界专家、学者探讨如何运用大数据、人工智能技术对数据进行体系化、智能化的治理,形成智能化的数据资产,驱动各领域的应用。

百分点科技首席算法科学家苏海波在《知识图谱技术及行业应用实践》主题分享中表示,近些年,人工智能逐渐从感知智能向认知智能发展,知识图谱则是实现认知智能的关键技术方法,在构建出知识图谱后,可以实现各种智能场景应用。

苏海波以此为背景介绍了百分点科技知识图谱抽取、知识图谱问答等技术的算法原理和实践,以及在多个行业场景中的具体应用。他强调,未来知识图谱一定会深入到各行各业,只有将知识图谱技术和具体业务需求深度结合起来,才能真正发挥出知识图谱的价值,解决行业问题

以下为苏海波博士演讲内容:

今天分享的主题是《知识图谱技术及行业应用实践》,主要分为四个方面的内容:知识图谱构建方法论、知识图谱抽取、知识图谱问答和知识图谱应用。

一、知识图谱构建方法论

在实际应用中有很多结构化和非结构化的数据,要让这些数据在人工智能时代发挥价值,就需要通过技术手段从数据中提炼出知识,并通过算法等方式建模服务于应用。知识图谱可以让数据转变为业务知识,和智能化应用建立有效衔接。

如何构建知识图谱?

知识图谱的构建应是业务应用驱动的。做知识图谱之前,首先要考虑投入产出比,明确需求是什么,要解决什么样的业务问题,以及评估技术的可行性。如果没有想清楚业务需求就开始做,这个项目的效率通常会很低。

接下来需要对数据进行知识获取、知识建模等处理。在文本中可以提取背景知识,经过数据治理后,也产生一些结构化的数据,还有很多视频的非结构化数据,我们需要从这些数据中进行数据抽取、建模,再通过知识映射、知识消歧等技术手段,提取出有效的知识进行融合,最后提供搜索、推荐、问答等等应用方式。现在,在金融、医疗、公共安全等具体行业中已经有了很多更为细化和具体的应用。

二、知识图谱抽取

知识图谱抽取是把文本化数据中的关键要素和要素之间的有效关系抽取出来,是知识图谱构建中十分关键的一环。其中,命名实体识别和关系识别是比较关键的技术环节。

从历史发展历程来看,命名实体识别的发展与NLP特别类似。在90年代,语言学家用语言规则来解决问题;进入年以后,机器学习模型逐渐发展,机器学习方法被应用来解决NLP问题;后来我们开始利用深度学习的方法来解决语音、图像、NLP上的问题;近期,预训练模型方法成为NLP领域的技术主流。

在知识抽取方面,命名实体识别的方法早期基于字典和规则,后续逐渐发展成机器学习和深度学习方法,近期用的比较多的是BERT+CRF模型架构,该模型结构基于BERT对输入文本进行表示编码,然后序列解码器采用CRF模型,这种模型架构比以往的深度学习模型BiLSTM+CRF有更好的效果。

识别出来实体之后,我们要进行关系识别,早期的方法包括基于字典的方法、基于规则的方法和基于本体的方法,机器学习方面的方法包括监督学习、半监督学习和无监督学习,深度学习的方法分为流水线抽取和联合学习两类,另外,还有远程监督的方法。

基于预训练模型做关系分类是特别经典的方法,在做关系识别时候需要做一些技术改造,如下图所示,通过前后两个实体(实体1、实体2)加特殊符号,并基于开始的CLS符号表示就可以做关系的识别,这是用BERT来做关系分类典型的思路。

实践中,百分点科技在公共安全和应急管理领域应用较多,相关业务系统中有很多文本数据,这些文本数据难以应用起来,那么,如何有效发挥这些数据的价值?首先要做的是对这些文本进行结构化,抽取有价值的信息。

以应急系统为例,在事故上报系统中有很多文本化的数据,传统的方式是业务人员阅读文本之后思考如何处理,例如进行下派或上报。如果把这个过程智能化,就需要对上报的文本提取出关键的有效信息,包括事故分类、分级、响应分级、伤亡等,为辅助决策建立有效的基础。

三、知识图谱问答

对知识图谱问答,大家这几年做的研究比较多,比如我们日常生活中出现的小度机器人、百度问答、Google问答等,很多是依赖背后的知识图谱做问答。但是知识图谱问答方面还存在比较多的技术问题,下面介绍一下我们的技术方案。

首先要对问题进行解析,识别出问题的真正意图,核心是命名实体识别,并进行实体消歧等处理。在完成问题解析之后,再进行实体分析、查询执行,最后对答案进行验证。

其中关键的一步是做问题分类和槽位预测。由于我们输入的自然语句是人能够看懂的语言,比如“凯文·杜兰特获得过哪些奖?”,这种问题机器并不能看懂,需要转化成让机器能够理解的形式化语言。因此需要先建立机器能够理解的模板,再对这些模板的要素进行填充,构成机器查询语言。

构建模板时要看几个维度,首先识别这个问题是链式还是夹式的,链式是指多个实体依次求关系,再通过关系求实体答案,夹式是指为多个实体查询不同的关系之后求交集,例如“鲁迅的第一部代表作是什么?”这是链式问题,“武汉出了哪些科学家?”这是夹式问题。另外要看这个问题是由几跳构成的,每一跳之间到底是什么关系。从这些维度出发能够形成一个问题的模板,然后再进行问题要素的填充。

在知识图谱问答中,一个关键的步骤就是查询路径的构造。查询构造旨在根据问题,构造出问题的候选查询路径,通过路径排序筛选出正确的查询路径,根据此路径在知识图谱中查找相对应的实体目标,作为问题的最终答案。

基于这套算法在实际中的应用,我们在年的CCKS大赛当中获得第三名,在这个比赛中,我们针对各种复杂的知识图谱问答类型进行了算法的优化和进一步改进,解决了不少具体的难题和挑战。

四、知识图谱应用

我们的很多客户都提过构建知识图谱的需求,那什么样的知识图谱项目容易落地?我们认为有以下三大前提:

一是应用场景明确。通常的应用场景包括搜索、问答、推荐、决策分析等等。应用先不要太复杂,越简单越具体的应用,越容易落地。

二是依赖知识有清晰的边界。应用依赖的领域知识能够由客户内部的数据源结合外部的数据源进行覆盖,而且这些数据源越具体越好。

三是知识图谱介入工作量可控。如果应用场景对于知识图谱有苛刻的质量需求,例如医疗中抽取的疾病和药物信息不能有任何错误,那么项目落地的人力成本就会非常高。

我们要从应用、数据、成本这几个角度综合考虑一个知识图谱项目落地的可能性,结合经验和案例具体阐释一下。

1.知识图谱在快消零售行业的应用

智能商情分析系统通过收集电商、

转载请注明:http://www.0431gb208.com/sjszlfa/3554.html