毕业论文
您现在的位置: 语言识别 >> 语言识别前景 >> 正文 >> 正文

TrOCR基于Transformer的新

来源:语言识别 时间:2023/11/18
中科医院专家微信 http://www.jk100f.com/baidianfengzixun/jiankangbaiwen/42627.html

编者按:很长一段时间以来,文本识别一直都是一个重要的关于文档数字化的研究课题。现有的文本识别方法通常采用CNN网络进行图像理解,采用RNN网络进行字符级别的文本生成。但是该方法需要额外附加语言模型来作为后处理步骤,以提高识别的准确率。

为此,微软亚洲研究院的研究员们展开了深入研究,提出了首个利用预训练模型的端到端基于Transformer的文本识别OCR模型:TrOCR。该模型简单有效,可以使用大规模合成数据进行预训练,并且能够在人工标注的数据上进行微调。实验证明,TrOCR在打印数据和手写数据上均超过了当前最先进的模型。训练代码和模型现已开源。希望感兴趣的读者可以阅读全文,了解TrOCR的优势所在!

论文:

转载请注明:http://www.0431gb208.com/sjsbszl/6408.html

  • 上一篇文章:
  • 下一篇文章: 没有了