近日,第十六届国际语义评测(The16thInternationalWorkshoponSemanticEvaluation,SemEval)大赛落下帷幕,科大讯飞在三项主要赛道中拿下冠军,标志着科大讯飞在多语种语言理解领域持续进阶。
SemEval评测由国际计算语言学协会(AssociationforComputationalLinguistics,ACL)旗下SIGLEX主办,迄今已举办16届,参赛者覆盖国内、外一流高校及知名企业,包括达特茅斯学院、谢菲尔德大学、华为、阿里达摩院等,代表着最前沿国际技术和水平。
经过角逐,科大讯飞分别在“多语种新闻相似度评测任务”(Task8)、“多语种惯用语识别任务”子赛道(Task2:SubtaskAone-shot)、“多语种复杂命名实体识别任务”(Task11)三个子赛道中拿下冠军。
新闻相似度评价:目光如炬
本次SemEval评测聚焦的Task8是多语种新闻相似度评价任务。科大讯飞与哈尔滨工业大学联合组建的“哈工大讯飞联合实验室”(JointLaboratoryofHITandiFLYTEKResearch,简称HFL)以显著优势摘得冠军。
简单来说,参赛队伍需要在每组新闻中判断是否描述了同一个事件,并以1-4分为两篇新闻的相似度打分,其中包含了多达10种语言,分别为阿拉伯语、德语、英语、西班牙语、法语、意大利语、波兰语、俄语、土耳其语和中文。但新闻相似度究竟是什么?让我们用一则示例为大家解读。
图中列举了两篇相似度极高的新闻稿件,参赛队伍必须将文中相似的主要元素剥离出来并逐一分析,比如地理信息、叙事技巧、实体、语气、时间及风格,最终得出两篇文章的相似度与差异化。
与普通的文章相比,该项比赛更强调跨语言理解能力,除了写作风格和叙述方式外,还需要把握文章中描述的具体事件。通俗来说,该项技术可以甄别外网的一些新闻报道是否存在偏差与曲解,从而有效预防虚假信息、不良信息的传播。
科大讯飞在这样的赛道上拔得头筹,充分展示了在跨语言理解能力上的强硬实力。
惯用语检测:熟能生巧
哈工大讯飞联合实验室拿下的第二项任务冠军,便是Task2SubtaskA的惯用语检测。通俗来说,无论你是哪国人,在日常表达中都有一类短语的固定用法,并且该固定用法通常与短语的字面语义不同,我们会将这些短语称为“惯用语”。想要理解包含惯用语的句子,首先需要判断句子中的多字短语是否为惯用语,比如“说曹操,曹操到。”句中的曹操是否真实存在。
该任务的形式便是给定一个目标语句,包括其上下文和多字短语,继而判断该语句中的多字短语用法究竟是惯用语还是字面意思。该任务为多语言任务,包含英语、葡萄牙语、加利西亚语三种语言。其中加利西亚语没有在训练集中出现过,因此科大讯飞代表队需要在不同语言之间进行迁移学习。
还是不懂?别担心,让我们来看一则示例。
如例所示,Literal表示字面意思,第一句话可翻译为:当你从网中抓一条大鱼时,最好撑住它的腰。Idiomatic表示惯用语,所以第二句话中再次出现了大鱼一词,但却不是简单的字面意思,而是“大人物”。
所以该任务要求参赛队伍区分不同句子中同一个词的不同语义,这需要强大的分析及跨语言理解能力。有了该项技术,在日常写作和翻译工作中,即可有效鉴别惯用语的表达用意,极大提高内容准确率。
科大讯飞不负众望,再摘桂冠。
复杂命名实体识别:披荆斩棘
这第三冠有多难?光听名字就觉得复杂:多语种复杂命名实体识别任务(MutiCoNER)。科大讯飞联合中国科学技术大学语音及语言信息处理国家工程研究中心迎难而上,在该项任务中一举拿下三个子赛道冠军。
我们先拆解一下MuticoNER这个词,Muti是multilingual(多语言)的简称,Co即是
转载请注明:http://www.0431gb208.com/sjslczl/1501.html