编者按:很长一段时间以来,文本识别一直都是一个重要的关于文档数字化的研究课题。现有的文本识别方法通常采用CNN网络进行图像理解,采用RNN网络进行字符级别的文本生成。但是该方法需要额外附加语言模型来作为后处理步骤,以提高识别的准确率。
为此,微软亚洲研究院的研究员们展开了深入研究,提出了首个利用预训练模型的端到端基于Transformer的文本识别OCR模型:TrOCR。该模型简单有效,可以使用大规模合成数据进行预训练,并且能够在人工标注的数据上进行微调。实验证明,TrOCR在打印数据和手写数据上均超过了当前最先进的模型。训练代码和模型现已开源。希望感兴趣的读者可以阅读全文,了解TrOCR的优势所在!论文:
转载请注明:http://www.0431gb208.com/sjsbszl/6408.html