TrOCR基于Transformer的新

来源：语言识别时间：2023/11/18

中科医院专家微信 http://www.jk100f.com/baidianfengzixun/jiankangbaiwen/42627.html

编者按：很长一段时间以来，文本识别一直都是一个重要的关于文档数字化的研究课题。现有的文本识别方法通常采用CNN网络进行图像理解，采用RNN网络进行字符级别的文本生成。但是该方法需要额外附加语言模型来作为后处理步骤，以提高识别的准确率。

为此，微软亚洲研究院的研究员们展开了深入研究，提出了首个利用预训练模型的端到端基于Transformer的文本识别OCR模型：TrOCR。该模型简单有效，可以使用大规模合成数据进行预训练，并且能够在人工标注的数据上进行微调。实验证明，TrOCR在打印数据和手写数据上均超过了当前最先进的模型。训练代码和模型现已开源。希望感兴趣的读者可以阅读全文，了解TrOCR的优势所在！

论文：

转载请注明：http://www.0431gb208.com/sjsbszl/6408.html

上一篇文章：讯飞输入法120发布新增方言免切换

下一篇文章：没有了