“知道团队夺魁的消息时,当时你的心情是怎样的?”
在3月中旬,第十四届NTCIR(简称NTCIR14)评测比赛的结果尘埃落定,一览群智联合中国人民大学信息学院团队在短文本对话任务(STC3)中摘得桂冠后,作为团队领导者之一、一览群智的CTO窦志成就时常被同事、同行、朋友这么问。
他的表现和回答很淡定:“团队当然很高兴了,第一时间就给我发来消息,说‘我们第一了’,但是你也知道,一群理工男嘛,不会有什么太大的情绪波动。”
这其实就是一览群智在NTCIR14·STC3评测比赛夺魁里最有趣的地方:
这些理工男接到的任务偏偏是“情绪对话生成”,简单来说,就是让人机对话中的“机器”具有情感,就像科幻电影《her》里,主人公爱上了一个“操作系统”,“她”不但能理解主人公的表达,给予反馈,还向主人公释放了自己的“爱”,让主人公一度不能自拔。
当然,在现实里,让AI具有情感,仍然是一项巨大的技术挑战,甚至有些超前。
群雄逐鹿
NTCIR的全称是NIITestbedsandCommunityforInformationaccessResearch,是由日本国立情报学研究所针对信息检索和自然语言处理(包括检索排序、意图理解、自动问答、文本摘要、信息提取等)开展的全球性评测比赛。由于主办方系第三方学术机构,该评测比赛独立、客观、公正,逐渐成为人工智能重要领域自然语言处理(NLP)和信息检索(IR)在全球最权威的评测比赛之一。
在16年举办的NTCIR12首次增加了基于中文语料的评测新任务:短文本对话任务(STC)。这是唯一针对开放域语料(比如以微博、豆瓣这类公共社区平台作为语料库,几乎涵盖了人们生活的所有对话场景,复杂度很高)在对话层面的评测比赛。
在决定参与评测比赛的那一刻,窦志成很兴奋:
NTCIR的特殊性在于,其发布的“任务”是动态的,会根据技术在当下的应用与前瞻性,略偏向“前沿”,就以STC的设置为例,其代表组织者对NLP在整个AI领域内,在当下的时间节点,其核心地位的肯定,同时也意味着其在未来几年内仍然有初见端倪的成效,但制约大规模应用的挑战。
STC迄今已经举行了三次,难度逐级提升。
STC1和STC2分别设置了基于检索和基于生成的对话任务,二者的区别是,前一任务中机器需要从大规模语料库中检索出恰当的能够回复给定上文的对话,在而后者中,机器则需要生成连贯、流畅、有意义的对话。
这实际上就是一个人机对话的过程:
机器首先要准确理解一段文字的含义,随后给出准确的反馈,目前在业界有两种反馈的方式:
第一种就是“检索”,基于既有的完整对话语料给予回答,优点是现有的语料中的内容质量较高,缺点是受到语料库的限制,比如在有些对话场景下,现有语料库中不存在一条合适的能够回复当前上下文的句子,就回答不出来。
而如果一个对话机器人在“回答不出来”还必须硬答的时候,可能就会选择另外一条现成的语句回答,造成前言不搭后语;
第二种是“生成”,可以简单理解为机器在理解了谈话对象的意思、确定了回复方案后,从“字典”(即打碎了的语料里)里“拼接”出一段流畅、准确的回复,优势是不受到任何既有知识库的限制,缺点是技术难度还比较高。
目前,业界的应用以“检索”为主,“生成”是方向;学界的思路就以STC为风向标:STC1的任务以检索为主,STC2增加了更难的子任务:生成;STC3,也就是一览群智夺魁的这一届在难度上再进一步,是情感+生成,即机器不但要生成一段回复,这个回复还要有温度,能引发情绪共鸣。
除了技术挑战外,NTCIR评测比赛还有一个有趣的重点特点:不公开竞赛,参与者只能自己和自己较劲,有点“蒙眼狂奔”的意思,更考验参与者的绝对实力。
因此,三届STC吸引了国内众多大厂,有华为、BAT这样的大厂,也有搜狗这类在垂直领域有优势的独角兽,能在这样一个权威、公正的平台上和众多大厂竞争,对专注在NPL领域的一览群智而言,既是挑战,也是证明自身实力的好机会。
炼好内功、厘清主线
窦志成介绍,STC3的目标是训练机器人在对应的语境生成对应的有情感的对话,所以首先需要研究者“告诉”机器人应该形成什么样的情感。
STC3的情感标签为六个:高兴、喜欢、愤怒、讨厌、悲伤,和一个“others”,涵盖了人类最常出现的情感类别,在实际研究中,相当于训练了六个智能机器人,在一段信息发生时,先对信息“分拣”,识别出应该归属于哪一类情感,也就是分配到相应的机器人,再由该机器人进行带有情感的回复。
当然,应用时六个机器人是要汇聚到一个模型里,以便即时生成回复,如果回复的语句无法对应问题,零分;能够对应但情感不准确,1分;既回应和情感都准确,两分。
这就是一个标注数据、训练模型、评测、应用、反馈的过程,说起来简单,但真正执行时就需要面对大量的技术难题和人工工作,窦志成提到,实际上从决定参加评测比赛到提交成果截止期,只有两个多月的时间,时间上已经非常紧张。
但他仍然给团队放了话:我过去参加人工智能相关的比赛,从没低于前三,所以,我们要参加就最少拿到前三名,否则就不去。
这是鞭策,也是底气,因为一览群智的NLP(自然语言)、算法平台为评测比赛奠定了很好的基础。
如前所述,一览群智的业务基础就是NLP,但在业务前端会延伸出各种不同的业务场景,比如舆情分析、电商平台的销售反馈、企业客服系统针对客户提问的信息识别与分拣(发送到相关的业务部门),需求都不一样,有的要求情感分类,有的则要基于行业的知识图谱做问题分类,这对企业的底层技术平台的智能化、灵活性,当然还有解决问题的能力提出了很高的要求。
一览群智的NLP平台涵盖了文本分析的全链条,提供包括但不限于正文抽取、句子切分、分词、词性标注、命名实体识别等二十多种文本分析组件,同时,一览群智的机器学习与标注平台内置了数百种核心算法,涵盖分类、回归、聚类、推荐、时序、统计、神经网络等机器学习算法、深度学习算法、文本挖掘算法以及图像相关算法,简单来说,已经实现了从“标注数据、训练模型、评测、应用、反馈”的闭环,针对评测比赛,其实只需要从过往积累的业务能力中针对性萃取即可。
窦志成说:“实际上这种评测比赛考验的并不是企业的单项能力,他要你平时大量细致工作和技术积累的汇集,而这一点我对一览群智的能力是不担心的。”
一外一内,两大助力
如前所述,STC基于商业实践中的技术,但又要领先半步,所以需要企业和学界的配合,STC2的第一名就是搜狗和清华大学的联合团队,双方分工明确,搜狗在检索(搜索)优势明显,清华大学人工智能所在生成领域有不错的研究基础,而搜狗创始人王小川本身就是清华毕业生,默契不言而喻。
至于人民大学,可能相比清华这类理工科的标签,外界对人大最深的印象还是新闻学院这类偏文的关键词,但人民大学在信息化和人工智能领域的积累非常深:
中国人民大学在数据库和大数据领域研究国内领先,而人大信息学院院长文继荣先生是微软亚洲研究院的元老、搜索引擎必应的奠基人之一,也是人工智能领域的顶尖科学家,他在这次评测比赛中也亲自带队。
而一览群智与人民大学联合团队的另外一个优势是:作为AI公司,一览群智在创立之初就把“产学研”一体化作为公司竞争的重要引擎之一,同人民大学信息学院在评测比赛前就建立了深度而密切的合作,为双方在有限时间内极大避免了磨合成本。
比如,窦志成介绍在有限时间内,夺魁的关键要素是如何“厘清主线”,即方法可以试,但大方向一定不能错,这是不走弯路的最优解。
所谓的“主线”就是从人们沟通的角度,来倒推机器回复的核心标准:有信息量。比如一个回复里有时间、地点、人物,就是有信息量,而一句“呵呵”,就是废话。确保回复的信息不会被无意义的干扰性词汇淹没,生成高质量的回复,这就需要大量细致、扎实的工作,在这个过程里,一览群智就得到了人民大学信息学院同学们的极大助力。
在内部,一览群智CEO胡健给了窦志成高度的支持。
在他看来,如今AI潮很热,但距离形成实际的生产力还有一定距离,AI真正的应用需要理解对话、感知情绪、进行分析和推理,从而辅助决策,让人成为超人。这是一览群智努力的目标,也是参加NTCIR的初心。
胡健是电影《her》的粉丝,或者说,他在内心希望一览群智的产品在将来的一天,也能够如电影里的OS一样,不但准确,而且有温度和情感。
“未来可期,这是我们为未来正在做得铺垫之一”胡健说。
当然,团队的夺魁也给了胡健现实的回报:
能够在情感+生成的高难度文本任务中挑战成功并夺魁,做到了众多大厂尚未做到的事儿,对一览群智品牌的意义不言而喻——就像一个完成了boss挑战的勇士,自然也能胜任新手村(检索与生成)的任务;
另一方面,STC既是企业业务和技术积累的一次大考,也是促成了其在关键技术上的提升,最终,这些技术沉淀到一览群智的技术平台,在夯实业务基础的同时,也为下一次挑战积累着力量。
《her》中人工智能在未来的一大步,就是由今天这些“一小步”徐徐推动的。
来源:消费日报网
转载请注明:http://www.0431gb208.com/sjszjzl/3358.html