毕业论文
您现在的位置: 语言识别 >> 语言识别发展 >> 正文 >> 正文

蒙特利尔大学刘邦基于图学习的热点挖掘与兴

来源:语言识别 时间:2023/5/3
北京中科参与健康管理与商业医疗保险论坛 http://pf.39.net/bdfyy/zqbdf/180415/6169106.html

分享嘉宾:刘邦博士蒙特利尔大学

编辑整理:吴祺尧加州大学

出品平台:DataFunTalk

导读:自然语言处理在现实生活中存在于各种应用中,比如百度、谷歌、雅虎等搜索引擎,以及智能家居的智能助手,虚拟的偶像角色如微软小冰、小米小爱、百度小度。社交网络中如微博、知乎、抖音也会涉及到短文本或者长文本的自然语言分析以及tag聚合等。在自然语言处理中,有两个核心问题:以何种形式表示文本;基于某种形式我们应该如何建模与计算。我们认为图神经网络是这个领域下一个发展方向,因为自然语言是一种具有组合性以及层级结构的事物。今天分享的题目是基于图学习的热点挖掘与兴趣点建模。这些工作是阿尔伯塔大学团队以及腾讯QQ浏览器团队一起合作完成的。

今天的介绍会围绕下面三点展开:

自然语言处理背景介绍

StoryForest:HotEventsDiscoveryandTracking

GIANT:OntologyCreationandUserInterestModeling

01

自然语言处理背景介绍

首先和大家分享下自然语言处理的背景。

自然语言处理领域最早对文本的表示方式是bagofwords。对于一段文本,我们将它视为一个词的集合。在这种情况下,我们不考虑词与词之间的联系,如顺序结构等,对应计算模型是基于统计的方法。这类方法相当于把每个词当成独立的case,失去了词与词之间的内在联系。

之后,自然语言处理领域提出了基于词向量的表示。如果使用one-hotencoding,假如我们存在一个两万个单词的字典,我们就是要一个两万维的向量表示它。而使用词向量的话我们可以用低维向量(或者维)来表达语义信息,这样我们可以使用词向量对两个词计算相似度,且相似的词其相似度会较大。常用的模型有RecurrentNeuralNetwork(RNN)以及LongShortTermMemory(LSTM)。

还有一些工作会把一句句子的词向量垒起来,将其看作一个矩阵。其中,每一个词向量本身是一个维度,句子中每个单词又是另一个维度。通过这种方法,我们可以应用CV领域的卷积神经网络的方法。当然,在自然语言处理领域,我们借鉴了CV的思路,但是针对文本是使用一维的卷积神经网络进行处理,并且按照单词的顺序从左到右进行卷积。

目前比较流行的方法是使用大规模预训练模型做自然语言处理任务。我们会利用堆叠的transformer模型进行建模。这种做法学习出的词向量的特点是每一个单词的表示与上下文相关。比如一个词如果使用固定的词向量进行表示,那么同一个单词出现在不同的句子里就无法表达变化的语义,典型例子就是苹果公司和水果苹果。正是因为同一个词在不同语境下的语义差别,所以我们需要构建一个基于上下文的词向量表达。在最早的BERT被提出之后衍生了很多大家熟知的预训练模型,这里就不一一列举了。

纵览自然语言处理的发展历程,从bagofwords到大规模预训练语言模型,下一个能够进一步带给这个领域更多进步的模型应该是什么?我们认为是基于图结构的表达和基于图神经网络的建模。Transformer是对文本进行建模,而GNN可以在此基础之上引入先验的图结构。通过GNN我们可以利用先验知识来建模对应图结构,从而弥补毫无先验信息的文本表达方式。

自然语言处理领域其实存在很多图结构,比如语法书、语义图、知识图谱等。从语言本身来说,自然语言是一种非常灵活的、具有可组合性的以及具有层级结构的事物,也就是说一句话的完整语义是可以被不同层级的多个细粒度语义组成的。例如一个相同语义的主动句和被动句,如果我们以一种图的方式来表达它们的话,我们会发现它们的语义层级结构其实是相同的,即使它们的顺序结构存在差异。也就是说图结构能够表达出自然语言的灵活组合性以及层级结构。

我们之前的工作覆盖了NLP领域内不同的任务,包括文本匹配、文本挖掘和文本生成,并且将它们应用到了一些列不同的应用中。我们今天分享的应用主要是基于图结构进行建模,并将其使用在文本匹配进行热点事件的挖掘和分析,细粒度文本的聚类,以及通过对用户兴趣点的建模来提高信息流的推荐搜索。

02

StoryForest:HotEventsDiscoveryandTracking

我们首先分享storyforest系统。这个系统主要是应用于热点事件的挖掘。

在当今时代,我们每天可以从不同渠道接触很多信息。在这么多纷繁复杂的信息中,我们很难快速地获取自己最关心的一类信息。比较传统的做法是在搜索引擎中输入自己感兴趣的事情作为query,得到一些高分的返回结果,或者我们会受到主动的推荐。

但这种做法有一些缺陷。首先,你所得到的文章列表中,文章之间不存在有意义的结构。另外,每个文章刻画的信息是十分细粒度的,文章与文章之间存在重复信息,即对于同一件事情,不同的媒体报道的内容大部分是重合的,这样就形成了信息的冗余。反之,如果两个新闻之间是关于同一个话题的,但是它们的冗余度比较少,你其实并不知道它们之间的关系是什么样的。

我们提出的storyforest系统想利用图结构有效地组织信息,减少它们之间的冗余,并且理清它们之间的发展关系。例如上图的例子,针对年美国大选,我们可以把相关事件整理成一个story,每个绿色节点代表一个事件。我们认为一个事件是发生在某一个时间点,包含一群人或者一些实体的一个事情。Story中会包含一些分支,如上图希拉里的健康门,三次电视大选,希拉里的邮件门等。通过一个树形结构,我们能够纵览故事的全局发展,并且追踪其中的某一些分支。每一个节点把关于同一个事件的所有报道都聚类其中,不同事件之间具有相关性,我们可以根据时间点的发展以及事件之间的紧密程度构建如上图所示的树结构。

上图展示了storyforest系统的总体架构。

首先,第一个模块是预处理,里面包括文本的聚类、文本的过滤、切词、提取关键字等。

接下来最核心的问题是如何对文章进行“事件”粒度的聚类。此前传统方法大部分是对文章进行话题聚类,而我们的目标是将每一个聚类中所有文章所阐述的核心点是围绕同一个事件,其在语义层面是相较于话题来说更为细粒度的。我们在这里提出了EventX基于图结构的双层聚类算法。首先我们会根据关键词的贡献程度建立关键词图,图中每个节点都是一个关键词,节点之间的边代表了关键词的共现次数超过了一定阈值。其次,我们对关键词图使用社区发现算法分割成多个子图,每个子图对应一个话题。

接下来,我们将所有文章按照它们与每一个keyword

转载请注明:http://www.0431gb208.com/sjszyzl/4436.html