编者按:信息化是企业在外部环境变化时保持核心竞争力的有力手段。在白酒企业信息化过程中,通过应用大数据、云计算等的新智慧营销方式,精准定位消费群体,将对中国白酒未来营销起到革命性作用。在营销过程中,白酒企业基于知识图谱的数据信息化可以将隐藏在杂乱无章的数据背后的信息提炼出来,并进行数据分析与总结,最终得出研究对象的内在规律,帮助管理者进行更好地判断和决策。本文从白酒行业实际情况出发,基于HugeGraph图形数据库周边应用生态,分享了百分点大数据技术团队在白酒行业的技术创新实践,介绍如何通过知识的深度挖掘与关联分析,创新性地实现业务指标和问答的融合。
知识图谱本身可以看作是一种新型的信息系统基础设施。从数据维度上看,知识图谱要求用更加规范的语义提升企业数据的质量,用链接数据的思想提升企业数据之间的关联度,终极目标是将非结构、无显示关联的粗糙数据逐步提炼为结构化、高度关联的高质量知识。因此,白酒企业应该将知识图谱作为一种面向数据的信息系统基础设施进行持续性建设。
从技术维度上看,知识图谱的构建涉及知识表示、关系抽取、图数据存储、数据融合、推理补全等多方面技术;知识图谱的应用涉及语义搜索、知识问答、自动推理、知识驱动的语言及视觉理解、描述性数据分析等,因此,要构建并利用好知识图谱,白酒行业需要系统性地综合利用来自知识表示、自然语言处理、机器学习、图数据库、多媒体处理等多个相关领域的技术,而非单个领域的单一技术。可以说,用系统思维进行知识图谱的构建和应用,是未来的一种发展趋势。
一、知识图谱技术分析
1.知识图谱与数据存储
随着知识图谱规模的日益增长,知识图谱数据管理问题也愈加突出。近年来,知识图谱和数据库领域均认识到大规模知识图谱数据管理任务的紧迫性。由于传统关系数据库无法有效适应知识图谱的图数据模型,知识图谱领域形成了RDF数据的三元组库(TripleStore),数据库领域开发了管理属性的图数据库(GraphDatabase)。
Neo4j
Neo4j是用Java实现的开源图数据库,可以说Neo4j是目前流行程度最高的图数据库产品。Neo4j的不足之处在于其社区版是单机系统,虽然Neo4j企业版支持高可用性(HighAvailability)集群,但与分布式图存储系统的最大区别在于它是在每个节点上存储图数据库的完整副本(类似于关系数据库镜像的副本集群),而不是将图数据划分为子图进行分布式存储,并非真正意义上的分布式数据库系统。如果图数据超过一定规模,系统性能就会因为磁盘、内存等限制而大幅降低,此外,企业版每年授权费用也是一大笔开支。
HugeGraph
HugeGraph是百度开源的一款易用、高效、通用的开源图数据库系统(GraphDatabase),实现了ApacheTinkerPop3框架及完全兼容Gremlin查询语言,具备完善的工具链组件,助力用户轻松构建基于图数据库之上的应用和产品。HugeGraph支持百亿以上的顶点和边快速导入,并提供毫秒级的关联关系查询能力(OLTP),同时,还可与Hadoop、Spark等大数据平台集成,进行离线分析(OLAP)。
本次项目综合考虑,选用国产开源的HugeGraph进行图谱应用构建,如下是HugeGraph图形周边生态。
2.知识图谱与智能问答
基于知识图谱的问答(Knowledge-BasedQuestionAnswering,KBQA,下称“知识问答”)是智能问答系统的核心功能,是一种人机交互的自然方式。知识问答依托一个大型知识库(如知识图谱、结构化数据库等),将用户的自然语言问题转化成结构化查询语句(如SPARQL、SQL、Gremlin等),直接从知识库中查询用户所需的答案。
近年来,知识问答聚焦于解决事实型问答,问题的答案是一个实义词或实义短语。如“年茅台消费最多的城市是哪个?”“北京市年销售最好的品类是哪个?”事实型问题按问题类型可分为单知识点问题(Single-hopQuestions)和多知识点问题(Multi-hopQuestions);按问题的领域可分为垂直领域问题和通用领域问题,相对于通用领域或开放领域,垂直领域下的知识图谱规模更小、精度更高,知识问答的质量更容易提升。
知识问答技术的成熟与落地不仅能提高人们检索信息的精度和效率,还能提升用户的产品体验。无论依托的知识库的规模如何,用户总能像“跟人打交道一样”使用自然语言向机器提问并得到反馈,便利性与实用性共存。
攻克知识问答的关键在于理解并解析用户提出的自然语言问句。这涉及自然语言处理、信息检索和推理(Reasoning)等多个领域的不同技术。相关研究工作在近五年来受到越来越多国内外学者的
转载请注明:http://www.0431gb208.com/sjszyzl/1149.html