随着技术的不断发展,AI(ArtificialIntelligence,人工智能)逐渐在社会经济发展的方方面面深入,成为信息化时代最重要的支柱技术之一。
在数据安全领域领域,AI技术所能起到的作用越来越大,如针对数据防泄漏,运用知识图谱技术可以使数据实现结构化,减少人为性工作,从而让数据治理工作趋向智能化,提升工作效率。
在之前的文章中,明朝万达数据安全专家已经就“何为AI在数据防泄漏中的应用--知识图谱”做了详细的介绍。之后我们也将以系列文章形式为大家分享“知识抽取”、“知识融合”、“知识推理”、“知识运用”的相关知识,大家一同探讨,深入了解。
知识图谱之知识抽取
知识抽取是指从不同来源、不同结构的数据中进行知识提取,提取出数据内涵的事实性信息并供给知识图谱做进一步加工处理后会形成知识,存入到知识图谱。
知识抽取需处理的数据为多源异构数据,一般包括非结构化数据、半结构化数据和结构化数据,其相应的知识抽取的方法和技术各不相同。
△多元异构数据与对应知识抽取技术★从非结构化中获取知识用信息抽取,其难点在于结果的准确率与覆盖率;
★从半结构化数据中获取知识用包装器,难点在于包装器的自动生成、更新和维护;
★从结构化数据中获取知识用D2R,其难点在于复杂表数据的处理,包括嵌套表、多列、外键关联等;
★从链接数据中获取知识用图映射,难点在于数据对齐。
知识抽取:非结构化数据
面向非结构化数据的知识抽取使用信息抽取技术解决,信息抽取包括命名实体识别、关系识别、共指消歧、事件抽取及模板填充五个任务,其流程如下图所示:
知识抽取:半结构化数据
半结构化数据是指类似于百科、商品列表等本身存在一定结构但需要进一步提取整理的数据。面向半结构化的知识抽取使用包装器实现,其基本流程如下:
知识抽取:结构化数据
结构化数据就是指类似于关系库中表格形式的数据,该类数据往往在各项之间存在明确的关系名称和对应关系。因此可以简单地将其转化为RDF或其他形式的知识库内容。
关于知识抽取,一种常用的W3C推荐的映射语言是R2RML(RDB2RDF),其映射结果如下:
1、数据库表t_student结构
2、按照R2RML语言映射成RDF三元组知识结构
以及,现有的工具免费的有D2RQ,Virtuoso、MOrph等。
转载请注明:http://www.0431gb208.com/sjszlff/4299.html