OCR识别技术主要是将各类证件、财报、凭证等纸质材料转为结构化数据存储,因此,也就成为了证券行业数字化转型落地实践的重要抓手之一。但由于证券业务复杂度高、数据量大、风控要求高,且存在各种非标版式文档,在实际应用中OCR的落地效果还不是很显著。
主要有以下几点问题:
成本高:针对大量非标版式文字识别需求,需要借助第三方供应商定制开发,采购成本高。
周期长:OCR模型训练需要数据收集、标注、模型开发、调优等复杂过程,开发和采购流程时间至少需要3-6个月,无法快速响应业务需求。
兼容性差:单据/凭证存在新增版式或不定期版式变化问题,定制化的模型无法适配场景变化,需要二次开发或调优。
那么,证券企业如何应用OCR呢?
在实际应用中,企业的文字识别需求是多样的,例如固定板式、半固定和非固定板式等等,为了满足这些需求,我们推出了自研的OCR平台。
采用了自主研发的计算机视觉和自然语言理解技术,通过内置智能图像预处理、文字检测、文字识别和多模态结构化分析等四大引擎,构建了专门面向业务人员使用的智能结构化文字提取工具,从而提升人工录入文字和业务审核效率,实现企业降本增效。
针对版面规范的固定版式识别,例如特色凭证、申请单等,我们的OCR平台是通过自定义文字识别模板来快速解决,不需要训练,也不需要定制化开发,基于单张图片最快3分钟即可完成结构化输出模板
具体实现只需要三步,第一步,上传模板图片;第二步,框选定位锚点;第三步,框选识别字段
自定义模板基于通用OCR和多模态结构化双引擎技术,实现了高适配业务场景的OCR识别方案。通用OCR算法经过上亿数据训练迭代优化,模板文字检测和识别精度高达95%以上;针对版式不规范场景,通过多模态结构化技术,结合文字语义理解信息,可以对版式倾斜、拍照、跨页流水表格、换行和行列变化情况进行识别,大大提高了模板识别鲁棒性,从而将自定义模板真正实现落地应用。
针对复杂版式的识别需求,通过自训练工具来构建自定义模型。目前,基于少量样本就可以完成模型构建、同时可以完成数据标注、训练、评价、测试及部署上线全流程,当数据量不足时,还可自动生成海量训练数据。
相比传统OCR定制化服务,我们的OCR平台预估开发成本可降低10倍,同时适用于80+文字识别场景,例如各类各类票据、合同文档、身份验证等等,能够满足证券行业多样化场景需求。
转载请注明:http://www.0431gb208.com/sjslczl/4111.html