“达观杯”系列算法大赛是由国内领先的智能文本处理企业——达观数据——发起并主办的全球性人工智能算法竞赛,每年一届,至今已举办五届。
在CCF(中国计算机学会)自然语言处理专业委员会的特别支持下,第五届“达观杯”正式拉开帷幕。本届“达观杯”为自然语言处理算法竞赛,围绕“基于大规模预训练模型的风险事件标签识别”的主题展开,积极推动国内NLP技术创新,努力拓展更多应用场景。
赛题背景在大数据和人工智能技术加持下,不同行业各种新兴的风险控制手段也正在高速发展。但这些风险信息散落在互联网的海量资讯中,如果可以及时识别出其中的风险事件并挖掘出潜在的风险特征,就能够大幅提升识别和揭示风险的能力。而风险事件以文本的形式存在,需要采用自然语言理解模型实现风险事件的高精度智能识别,其本质是属于一个文本分类任务。
NLP(自然语言处理)作为人工智能领域皇冠上的“明珠”,其技术的科研创新一直精进不休。而文本分类在自然语言处理领域处于非常基础且核心的地位,目前文本分类已经广泛运用于金融、政务、银行、证券、运营商等各个行业中的多个场景中,如金融领域和政务领域的风险事件标签。
很多领域的子任务通常也转化成分类任务,完整的分类任务处理包括了分类标签体系、标注数据、算法模型等不同环节。
赛题任务本次大赛的任务是基于一定量的风险事件标注语料和大规模无标注的资讯文本,训练模型对资讯文本包含何种风险标签进行预测。
大赛提供的数据集:风险事件分类的训练集规模是+,包含9个一级标签和35个二级标签;大规模无标注的文本规模是亿级,可供选手选择用来进行语言模型训练。数据性质均为新闻资讯数据,并且进行了字符编码(保留了句子划分的标点符号),文中的字符会转换成唯一的ID,ID之间使用空格进行分割。
希望选手结合当下的前沿自然语言处理和深度学习技术,提升模型的训练性能和泛化能力,深入挖掘实现风险事件标签的精准识别。
数据简介本赛事采用了互联网上的新闻和资讯数据,目标在于识别新闻资讯文本中的风险事件标签。
场景示例包括以下:
丰厚奖励说明:奖金个人所得税或其他形式税收将由获奖者承担,由大赛承办方代缴,奖金将统一在扣除所得税后发放给参赛团队队长,参赛团队自行负责其成员间的奖金分配与分发,主办方及承办方对此将不承担任何责任。
其他奖励
比赛颁奖典礼将在CCF自然语言处理与中文计算国际会议(NLPCC)会场内举行,获奖队伍将得到中国计算机学会自然语言处理技术委员会的宣传支持,主办方将邀请最终成绩前10名队伍代表出席“NLPCC”大会。
比赛排名Top30的选手将获得达观数据全职和实习工作的面试直通机会,优先录用。
“周榜单激励”,开赛后赛中开启持续5周“周榜单”活动。
周榜活动时间:8月12日-9月16日
周榜活动规则:
初赛A榜开始后第三周开启“周榜单激励”活动,每周一公布截至上周日24点时周榜单TOP1团队信息,Top1团队即为“周冠军团队”。
经审核后,“周冠军团队”可获得价值元的精美礼品一份,本活动每个团队最多领取2次奖品,超出则顺延至下一名次团队。奖品将在初赛结束后统一发放。
赛程安排大赛采取线上比赛、线下颁奖的模式。选手于官方竞赛平台DataFountain报名、组队、提交作品测评。
线上比赛结束,经作品审核后,排行榜前十名的获奖团队或个人将有机会出席CCF自然语言处理与中文计算国际会议(NLPCC)交流成果并参与颁奖典礼。
赛程安排如下:
年7月28日:大赛启动。
年7月28日-9月19日:初赛A榜阶段(发布赛题,选手可登录大赛
转载请注明:http://www.0431gb208.com/sjszjzl/8075.html