文字识别中语言建模问题是目前的热点问题,如何快速有效地实现语言信息的提取成为了准确进行文字识别的关键。从RNN到Transformer,实现了从串行到并行的语言建模,效率大大提升。但是,我们认为这种引入额外语言模型建模语言信息的框架是导致识别效率低的根本原因。本文从语言建模入手,重新思考了语言建模在文字识别中的实现方式,在不需要引入额外语言建模结构的前提下,直接在视觉空间进行语言建模,实现快速准确的文字识别,方法简称VisionLAN。
论文:
转载请注明:http://www.0431gb208.com/sjslczl/623.html