前言
知识图谱的技术路线一般可以分为两种,一种是自顶向下,另一种是自下而上。其中自顶向下构建知识图谱的方案是从数据中找到本体和关系等信息,将结构化数据源添加到基础知识中。自下而上构建知识图谱的方法是基于公共资源模型收集数据,获得可靠性高的信息并添加到基础知识中。
一、知识图谱在智能投研领域的应用场景
(一)投资方向分析
目前已经有一些成型算法能够处理行业、产业上下游等关联信息,根据知识图谱中相关信息来分析投资方向,选择投资标的,并且根据舆情信息,通过知识图谱等实时计算发现潜在风险标的并预警。
(二)集团户的识别与构建
对于大型企业集团而言,其股权关系、组织架构复杂,存在集团公司、一级子公司、二级子公司、三级子公司等多层架构,且高层级的子公司内部可能也具有集团公司的多级架构,各个子公司可能分别处于不同的行业,每层级的子公司都有可能成为证券的发行人。对于投资机构而言,单纯通过人工识别或有限的程序化处理,难以识别企业集团的全貌,低估同一集团户下属企业的风险。以股权关系数据为纽带,打通各个公司间的股权关联关系,将企业集团户以一个包含多级数据源的知识图谱形式构建出来,并整合为机器可以理解、处理、监控的结构化数据,则可以有效推进集团户信息归集,将其应用于股权投资、债权投资、质押、同一客户授信等多个投资研究应用场景中。
(三)业务关联关系识别与预警
股权关联关系可以依靠工商信息等进行检索、处理,但业务关联关系则分散在多个数据源中,难以获取,需要依靠技术化的手段进行处理。结合上下游的供货、销售关系构建关联知识图谱,可以通过每一个节点上的企业快速检索其自身及其关联企业的上下游关联企业,在节点企业出现突发事件时快速对该企业及上下游企业进行识别,并采取相应措施。此外,知识图谱还可与信息一致性检验等方法相结合,就信息真实性进行核验。
(四)市场走势归因利用程序化方法
对历史上相似的市场走势进行归因,寻找共同的驱动因素,并形成逻辑推演的知识图谱。在驱动因素再次出现时,可以依次验证各个逻辑节点上的驱动因素是否符合规律,并进一步推断市场走势。
二、知识图谱建设路径构造
本文所构建的知识图谱是基于已有的非实时数据与抽取的实时数据自下而上构建的用于智能投研的知识图谱,主要分为三个步骤:知识抽取、知识融合以及知识加工。知识抽取指的是从各种类型的数据源(包括结构化数据源与非结构化数据源)中提取出实体、属性以及实体间的相互关系,并形成本体化的知识表达。由于知识的来源不同,同一个实体可能对应多种表达,或者同一种表达也可能对应不同的实体。知识融合指的是对多个来源的知识进行整合,消除矛盾和歧义。知识加工指的是对于融合后的知识,经过质量评估环节后将符合条件的内容作为新增内容加入知识库中。本文所构建的用于智能投研的知识图谱分为三部分。最左侧部分是基于公司已有的非实时数据所构建的基础架构知识图谱。
该图谱构建完成后,投研人员就可以看到上市公司及非上市公司与投研相关的市值、所属行业、行业地位等信息以及各个公司之间的相互关系,每一种关系间都有表示相关性的权重值。投研人员可以对图谱中数据进行查询与推导,结果会以网状图的形式以不同颜色或大小展示出来,便于投资人员进行投资决策。中间部分原始数据主要通过对接股票、期货、商品等交易所数据或者爬虫收集的财经信息、社交平台舆情数据等实时获取。这部分数据对于跟踪市场情绪变化以及应对市场突发事件具有重要的意义。
最右侧部分是专家知识库,投研系统很多知识的补全需要依靠行业专家或者投研人员来完成,尤其对于宏观政策、行业趋势、企业运营等信息的分析,需要专业人员将结果汇集到专家库中。将这三部分图谱或者数据整理完成后,就可以基于一定的知识推理算法来学习埋藏在数据里面的业务价值,并将最终生成的结果进行反馈,以便于后续的投资研究与知识推理。知识图谱将散乱的节点连接形成网状,以图谱可视化的形式展示出来,让投研人员直观地观察各个节点间的关系以及突发的事件对整个关系网造成的影响等信息。此外,将知识图谱在智能投研领域应用的场景反馈给图谱算法,对图谱算法进行持续改进,形成正向循环关系,使算法的关系挖掘能力更为强大与稳定。
三、知识图谱构建中关键点分析
(一)图谱构建
知识图谱存储方式主要有两种形式:RDF存储格式和图数据库。RDF存储格式的优势在于数据易发布以及共享,图数据库的优势在于高效的图查询和搜索。RDF存储格式以三元组的方式来存储数据而且不包含属性信息,但图数据库一般以属性图为基本表示形式,所以实体和关系还包含属性。其中属性包含内容相对比较广泛,例如节点所属行业、概念、业绩等。
在智能投研方面,使用图数据库相对比较合适,即采用实体、关系、属性的形式来存储。对于数据存储,有一些数据可能存放到关系型数据库更适合数据查询与分析,对于这样的数据就可以存放到关系型数据库里面。例如节点属性、宏观信息、行业信息与公司信息以及两者之间的对应关系、每个行业的龙头等信息都可以存放到关系型数据库中。对于其中的宏观信息、行业信息一般需要借助专家经验来构建,形成整体的框架,而且这些信息对于整个投研体系具有基础性、框架性影响。其中宏观信息主要包括GDP、PMI、通胀、货币与信贷等信息。公司与产品信息大多可以通过人工智能算法来采集,丰富投研信息。
(二)传导过程
从算法的角度来讲,有两种不同的传导过程:一种是基于规则的,另一种是基于概率的。基于规则的传导计算是指基于某些事件或者政策,根据知识图谱中设置的权重以及相应的规则,从知识图谱中提取特征。这些规则一般来说是知识图谱中提前设置好的要素,不仅设置节点数据,而且关系和属性数据都要进行设置。基于概率的传导计算运用社区挖掘、标签传播、聚类等技术。这种方式更加开放与智能,是基于数据归纳出来的一个结果,推理方式需要人工辅助验证是否能够真正应用于实践。基于概率的传导计算不需要人为地去定义规则,但需要大量的数据进行训练学习。鉴于目前人工智能技术现状,基于规则的方法论在应用中占据主导地位,但随着数据量的增加以及方法论的提升,基于概率的模型也会逐步带来更大的价值。
四、知识图谱在智能投研领域应用展望
(一)应用场景层面
基于知识图谱的发展趋势,结合金融行业投资研究业务的需要,知识图谱在未来或将向更加集成化、智能化的方向发展。多个知识图谱的有机集合或将发挥更大作用。例如,基于股权关联关系的集团户知识图谱与基于业务关联关系的知识图谱可以有机结合,在资产质量分析、关联交易识别、财务造假辨别、现金流转记录等方面发挥更大作用。借助知识图谱可以明确应收账款的债务方是否为同一控制下的关联方,以及上下游客户是否有重合等,借助知识谱图的分析可以预防欺诈与造假。在走势归因的基础上,基于当前市场与走势判断,智能化地提出投资操作建议,并根据策略进行业绩回测,实现智能投研。
(二)算法层面
一是多信源信息推理算法。随着移动通信技术的快速发展,人们可以随时上传文字、语音、视频和图像到互联网上。如何有效利用这些丰富的信息成为一个重要且有挑战性的问题。目前,多信源信息推理算法已经开始显现出潜力,但还是在发展的初步阶段,未来可以在这方面设计更好的算法模型,充分利用多信源的信息。二是多语言知识图谱推理。很多知识图谱都有多语言的版本,从多语言的网站上抽取信息。多语言知识图谱推理在机器翻译、跨语言剽窃探测和信息抽取方面起到重要的作用。
结语
但目前只有少数图谱算法是在多语言上做推理,未来多语言推理将是知识图谱发展的一个重要方向。
转载请注明:http://www.0431gb208.com/sjszlfa/2508.html