毕业论文
您现在的位置: 语言识别 >> 语言识别资源 >> 正文 >> 正文

赛尔笔记文档级事件抽取简述

来源:语言识别 时间:2022/9/24

作者:哈工大SCIR胡振宇

1.简介

事件作为信息的一种表现形式,其定义为特定的人及物在特定的时间特定的地点相互作用的事实。事件的组成元素包含触发词、事件类型、论元以及论元角色:

触发词:事件发生的核心词,多为动词和名词。事件类型:ACE定义了8种事件类型和33种子类型。其中,大多数事件抽取均采用33种事件类型。论元:事件的参与者。论元角色:事件论元在事件中充当的角色。共有35类角色,例如,攻击者、受害者等。例如:在Baghdad,当一个美国坦克对着Palestine酒店开火时一个摄影师死去了。该事件信息如表1所示:

表1举例事件相关信息

事件抽取的目标即自动化的从非结构化的信息中完成上述信息的获取,并结构化进行展示。事件抽取是信息抽取领域中一项重要且具有挑战性的任务。其可以为知识库构建,问答以及语言理解任务提供有效的结构化信息。然而传统的事件抽取任务大多数基于句子层面,但是这样具有很明显的缺陷:一个事件会涉及到触发词和多个论元,但是实际情况中,很少会有触发词和所有的论元都出现在一个句子中的理想情况(如图1[1]),所以如果在实际的文本中,孤立的从单个句子抽取,很可能会得不到完整的事件信息。因此,研究文档级别的事件抽取,如何获取跨句子的信息,对事件抽取的实际应用是很有帮助的。

图1触发词以及论元位于不同句子中的例子

2.任务

文档级别事件抽取任务包含论元角色识别任务(目前研究主要的

转载请注明:http://www.0431gb208.com/sjslczl/1691.html