知识图谱中的客户数据样本以及该图中附加的嵌入向量
去年,图嵌入在企业知识图谱(EKG)策略中变得越来越重要。图形嵌入将很快成为在大型十亿顶点EKG中快速找到相似项目的实际方法。实时相似性计算对于许多领域至关重要,例如推荐,最佳行动和队列构建。
本文的目的是使您直观地了解什么是图形嵌入以及如何使用它们,以便您可以确定这些嵌入是否适合您的EKG项目。对于那些具有一定数据科学背景的人,我们还将介绍如何计算它们。在大多数情况下,我们将使用讲故事和隐喻来解释这些概念。我们希望你能用这些故事向你的非技术同行解释图形嵌入的有趣和难忘的方式。让我们从第一个故事开始,我把它叫做“Mowgli’sWalk”。
Mowgli’sWalk
这个故事是基于RudyardKipling的精彩小说《TheJungleBook》改编的。
毛克利(Mowgli)是一个住在史前村庄的小男孩,村庄周围有一道坚固的保护墙。毛克利有一只可爱的宠物猫,有着橙色的皮毛和条纹。一天,毛克利走在村外的一条小路上,看见前面的小路上有一只大老虎。毛克利应该做什么?
路上看到一只老虎。他该怎么办?跑回村子里去,或者沿着小路继续走。
他应该继续沿着小路走下去,还是迅速跑回村庄和安全的隔离墙?毛克利没有太多的时间来做这个决定。也许只有几秒钟。毛克利的大脑正在进行实时的威胁检测,他的生命依赖于一个快速的决定。
如果毛克利的大脑认为这只老虎和他的宠物猫很像,他会继续沿着这条路走下去。但如果他意识到老虎是一个威胁,他会很快跑回村庄的安全地带。
让我们来看看毛克利的大脑是如何进化来进行实时威胁评估的。老虎的形象通过毛克利的眼睛传到他大脑的视觉皮层。然后,提取出图像的关键特征。这些特征的信号被发送到他大脑的目标分类区域。毛克利需要将这幅图与他所见过的其他图像进行比较,然后将其与熟悉的概念进行匹配。他的大脑正在进行实时的相似性计算。
一旦毛克利的大脑将图像与老虎的概念相匹配,而老虎的概念又与“危险”的情绪相联系,在它杏仁体(deephub翻译组注:amygdala是产生情绪,识别情绪和调节情绪,控制学习和记忆的脑部组织)的恐惧中心,毛克利就会转身跑回村庄。这种快速反应甚至可能没有经过毛克利新大脑皮层的高阶逻辑处理,我们已经在大脑中进化出了数据结构,通过在1/10秒内分析来自眼睛视网膜的数以百万计的输入信息来促进我们的生存。
现在你可能会问,这和图的嵌入有什么关系?图嵌入是一种小型的数据结构,可以帮助我们的EKG中实时的相似性排序功能。它们的工作原理就像毛克利大脑中的分类部分。这些嵌入式设备可以从数百万个数据点中吸收关于我们心电图中每一项的大量信息。嵌入式将其压缩成数据结构,使用低成本的并行计算硬件(如FPGA)可以方便地进行实时比较。它们能够进行实时相似度计算,用于对图中的项目进行分类,并向用户进行实时推荐。
例如,一位用户来到我们的电子商务网站,想寻找一份礼物送给婴儿。我们应该推荐可爱的毛绒老虎玩具还是流行的火焰喷射器?我们能在十分之一秒内推荐合适的产品吗?我相信,在不久的将来,一个公司能够迅速响应客户的需求,并就下一步最好的行动提出建议,这对任何一个组织的生存都是至关重要的。EKG可以经济高效地存储有关客户历史记录的数万个数据点。嵌入可以帮助我们离线分析此数据,并实时使用压缩后的数据进行嵌入更新。
既然我们知道了我们要嵌入的内容,我们就可以理解为什么它具有特定的结构。
什么是图嵌入?
在详细介绍如何存储和计算嵌入之前,让我们先介绍一下嵌入的结构以及使嵌入对实时分析有用的特征。
图嵌入是用于快速比较相似数据结构的数据结构。太大的图形嵌入会占用更多的RAM和更长的时间来进行比较。在这里,越小往往越好图嵌入压缩了图中某个顶点周围数据的许多复杂特征和结构,包括该顶点的所有属性以及主顶点周围的边和顶点的属性。围绕一个顶点的数据称为“上下文窗口”,我们将在后面讨论。图的嵌入使用机器学习算法计算。像其他机器学习系统一样,我们拥有的训练数据越多,我们的嵌入就越能体现一个项目的独特性。创建一个新的嵌入向量的过程被称为“编码”或“编码一个顶点”。从嵌入中重新生成顶点的过程称为“解码”或“生成顶点“。在找到相似物体的过程中测量嵌入效果的度量被称为“损失函数”(就是lossfunction和NN中的名字一样)。在嵌入中,可能没有与每个数字相关联的“语义”或意义。嵌入可以被认为是向量空间中一个项的低维表示。在嵌入空间中相邻的项被认为与现实世界中的项相似。嵌入
转载请注明:http://www.0431gb208.com/sjszyzl/4471.html