提起科大讯飞,人们总津津乐道于“让机器能听会说”的先进智能语音技术。其实除此之外,科大讯飞的“攻城狮们”也一直致力于让机器“能看会认”。
近日,科大讯飞A.I.研究院联合中科大语音及语言信息处理国家工程实验室,以显著优势获得ICFHROffRaSHME数学公式识别挑战赛冠军。这是科大讯飞继ICPRMTWI图文识别挑战赛上获得三项冠军、ICDARCROHME数学公式识别挑战赛上获得两项冠军后,在复杂版面文档图像识别理解方向上所取得的又一佳绩,再次展现科大讯飞在相关领域的技术先进性。
离线手写数学公式识别(官方数据)榜单
离线手写数学公式识别(外源数据)榜单
备注:“Correct”表示公式识别的句正确率,“”和分别表示整条公式中允许出现1处和2处错误的识别的句正确率
技术顶天,掌握图文识别“金字塔”级别难题“解法”
此次OffRaSHME(OfflineRecognitionandSpottingofHandwrittenMathematicalExpressions)数学公式识别挑战赛由ICFHR(InternationalConferenceonFrontiersofHandwritingRecognition)举办,参赛队伍包括韩国三星、东京农工大学、华南理工大学、中山大学等多家常年深耕文档分析理解领域的研究机构。
相比于常规的图文识别,对数学公式的识别难度和技术挑战往往更高。本次OffRaSHME官方比赛任务为“离线手写数学公式识别”,该任务相比ICDARCROHME的离线手写公式识别任务,难度再度升级,有以下三大难点:
公式结构复杂,尤其是各种结构的嵌套:
难以辨别的形近字符,如X和x,Z和2,和r:
本次比赛添加了很多非常规符号的组合,容易和公式混淆:
难度虽高,但这样的任务对于科大讯飞来说并不算陌生。
基于在手写数学公式识别领域深耕多年的技术积累,科大讯飞从基于上下文无关文法的传统数学公式方法到创新性地提出基于LaTeX建模的Encoder-Decoder识别算法,其中,LaTeX作为最常用的数学公式表达之一,研究人员将数学公式识别问题看作图像到LaTeX序列的翻译问题,借助注意力机制实现更精准的端到端识别能力,该方案在CROHME中一举打败了常年占据CROHME冠军地位的MyScript。
而针对数学公式识别中最难的复杂结构嵌套问题,科大讯飞提出了基于树形结构信息建模的Encoder-Decoder识别算法,这种算法在复杂公式结构嵌套上更具泛化能力。针对形近符号区分难度大的问题,科大讯飞提出使用基于LaTeX语言模型的数据增强策略,利用数学公式的树形结构表达,合理地拆分分解数学公式,并利用这些公式训练LaTeX语言模型,最后使用语言模型增强出合理的、符合上下文语义关联的数据,该策略可以很大程度上缓解形近符号识别困难的问题。
通过以上多项技术能力的综合运用,此次科大讯飞以显著优势拿下了此次任务难度极高的数学公式识别挑战赛冠军,证明了其在数学公式识别领域的技术先进性;在实际应用中,学生作业试卷文档存在版面结构复杂、书写风格差异显著等难点问题,这一系统将为其提供更为丰富有效的解决方案。
通过多项技术能力的综合运用,在“能看会认”上,科大讯飞做得更好了!不仅能识别更复杂的数学公式,还能做到“中文+数学公式”混合搭配的内容识别,此后将在更多A.I.产品中应用。
转载请注明:http://www.0431gb208.com/sjsbszl/1999.html