从文明诞生以来,人类就一直在寻求更有效的信息存储方式:从4万年前的洞穴壁画、年前的泥板楔形文字,到今天普及的SSD/闪存,再到对量子存储、DNA存储技术的探索,脚步从未停止。
由此可见,数据存储技术的发展,或许是人类文明发展的一条“暗线”——为了寻求更安全、更长久、更便捷的信息存储方式,几千年来的人类一直在不断探索。正如美国数学家、信息论的创始人克劳德·艾尔伍德·香农对于数据储备的价值所说过的那句话:
“人类文明的进步史,就是不断获取更多信息的过程,在此其中,存储技术一直是信息的基石。”
在数据存储技术的发展过程中,“万物皆数”的思维渗透其中,过去以传统载体形式存在的事物,在未来都将会以数据的形式存在。而这也预示着,“档案”与“数据”之间的边界将日益模糊。
因此,“档案管理工作正在经历从‘数字化’到‘数据化’和‘知识化’的转变,既是对纸质档案数字化工作的推进,也是对档案利用的深层次开发,更是推动档案服务升级的新契机。”这一说法正逐渐获得越来越多档案管理行业者的认可。
杭州档案馆《OCR+NLP在档案数据化中的研究与实践》项目便是一例:汉王科技利用人工智能技术对杭州档案馆现有档案管理和利用方式进行优化升级,对存量档案进行数据化和知识化处理,活化档案内容,一方面便于深度利用,另一方面,预示着档案建设新时代的到来。
盘活“死档案”,OCR+NLP成新路径
档案的重要性不言而喻。它是人类社会发展最根本的信息资料积累。档案不仅记录了个人工作生活经历、物理轨迹,为个人职业发展提供最有力的凭据,也记载了各类大大小小的社会事件,是人类社会发展过程中可供查阅的详细记录。
然而,传统的纸质档案管理模式需要耗费更多的人力资源、物力资源和空间资源。例如在档案保存方面,档案馆要考虑防火、防盗、防潮、防蛀、防霉等诸多问题;一旦出现文档纸张酸化、老化、遗失、以及字迹扩散等问题,文档将成为“死档案”不再允许借阅利用。因此,作为不可再生的“集体记忆”,纸质档案的妥善保存尤为关键。
无论是从档案管理的工作效率、档案本身的利用率,还是从环境保护、社会的长远发展来看,档案管理形式都亟须进行数字化转型以降低潜在风险。
“档案管理的数字化转型不仅是是数据资料管理方面的创新,也是对档案数据资料有效运用的创新,将数字化作为档案管理的载体,对庞大繁杂且易损的档案资料进行收集、审核、存储、查阅、调取,充分发挥档案管理的作用,是顺应社会发展需求的重要一环。”汉王科技旗下汉王数字副总经理李云鹏说道。
作为业界最早致力于OCR(光学字符识别)识别技术研发和应用的企业之一,汉王科技的优势应用技术就是文档电子化。早在年,汉王科技便将文档电子化的触角延伸至图书馆、档案馆,银行、医院、法院等多个领域。
但在这些具体项目的实施中,汉王科技也逐渐意识到:文档数字化的“江山”虽已打下,但这只是完成了信息应用的基础工作,形成的电子文本是非结构化数据。这样的电子文档没有文本挖掘,无法进行数据深度利用。
因此,要将文档的非结构化数据进行结构化处理,转化为技术术语,即真正地为静态的文字“赋予活力”,就必然要用到NLP(自然语言处理)技术。
李云鹏表示,NLP正在成为信息时代最重要的技术之一,同时它也是人工智能的关键部分;而OCR与NLP技术的融合,便能够通过机器识别与理解技术,来实现对档案数据的深度利用。
汉王科技方面表示,早在6年,汉王科技重金引入国内高水平的自然语言处理团队进行文档大数据化研发工作,力图突破NLP技术,建立起自己的文档大数据库体系,开发各种新的应用,主要包括文本分类、聚类、结构化数据抽取、知识抽取、知识图谱、机器阅读等在内的众多关键技术。
如今,汉王已经形成了从技术研发,到法院、医院、图书馆、档案馆、银行等多行业应用的闭环,各子公司也在技术和场景应用的协同中,形成了良好的联动效应。
基于档案数据化领域的OCR+NLP技术应用经验,汉王科技对杭州市档案馆现存的数据展开研究。“杭州市新冠防疫工作公文”以及“杭州市医学出生证明”,实现了由档案数据通过OCR识别、NLP语义分析、要素抽取、知识融合、知识图谱构建到档案知识图谱数据可视化的开发;总结了一套基于OCR+NLP构建档案知识图谱的实现流程;形成了新冠防疫与医学出生证明两个领域的专题知识库。
掌握核心技术,助力疫情防控
“杭州档案馆之所以选择汉王科技为档案数据化工作赋能,主要看重汉王的核心技术能力。”李云鹏说道。
在传统OCR技术中,图像预处理通常是针对图像的成像问题进行修正。常见的预处理过程包括:几何变换(透视、扭曲、旋转等)、畸变校正、去除模糊、图像增强和光线校正等。
其中影响识别准确率的技术瓶颈便是文字检测和文本识别,而这两部分也是OCR技术的重中之重。
对此,汉王科技基于海量的标注数据训练深度学习模型,对文字的识别能力已经达到应用场景落地的需要。目前,文字识别模型对印刷体的识别准确率可以达到99%以上,对手写体的识别准确率也可以达到90%以上。
不仅如此,在与杭州档案馆合作的《OCR+NLP在档案数据化中的研究与实践》项目中,汉王科技还将OCR识别能力扩展至“复杂表格识别”和“文字块聚合”两个方面。
李云鹏向亿欧透露,在图像中自动识别表格,本质上是计算机视觉中的“目标检测”技术。汉王科技将表格整体及单元格作为需要检测的目标,通过大量标注相关数据训练深度学习模型,能够较为准确地输出各个单元格的位置和大小,再经过后处理,将各单元格合并为表格。
同时,汉王科技基于先进的神经网络架构,如FasterR-CNN、SSD、YOLO等,加上该公司自行标注的数据进行训练和学习,得到表格识别模型。该模型识别出表格及各单元格的位置与大小后,结合OCR文字识别所得到的文字位置,可以计算出各个单元格所含具体文字。
除此之外,文字块的聚合本质上是一个分类模型,将多行文字的语义以及它们的版面信息特征化后得到一个向量,然后训练神经网络模型对这个向量进行分类,目标类别为两类:聚合或不聚合。借此,汉王科技将定义文字块聚合的标准输出数据结构,输出数据包括且不限于文字块的位置、宽、高、相邻文字块ID等。
目前,汉王OCR不仅实现了对有线表格的识别处理,还突破了无线表格的识别难题。
“汉王科技的OCR技术在档案行业处于较明显的领先地位,这是因为我们拥有扎实的底层技术和多年的积累,同时对档案有着深刻的理解,这一点是在行业内是独一无二的。”李云鹏说道。
如今,随着汉王科技与杭州档案馆的合作不断深入,OCR+NLP在档案数据结构化中的应用方法已经实现对公文、医学证明、工业档案等多个类型的关键数据的抽取,且能将抽取的数据保存到结构化数据库中,档案管理及用户查询检索更加便捷。
例如在年杭州新冠防疫的相关文件梳理中,便通过知识图谱形式来进行展现,能够很直观地呈现年杭州市各级政府单位针对新冠防疫工作所作出的部署及其经验成果,这一专题知识库对于杭州未来部署类似疫情防控工作具有重要的现实意义。
结语
年6月,云南财经大学发表的《OCR领域专利全质押融资评估研究-以汉王科技为例》认为,汉王科技基于多年积累的OCR识别技术优势(曾获得国家科学进步二等奖),如今已在司法、金融、档案、医疗等领域均存有高忠诚度的长期优质客户。
基于汉王科技在OCR以及NLP技术占据领先地位,该公司在未来还将拥有广阔的发展空间。尤其在医疗领域,据估算,以电子病历为核心的智慧医疗场景将会带来亿元的增量空间,汉王科技在其中大有可为。
面对如此“光亮”的前景,李云鹏向亿欧表示,汉王科技作为国内最早开展人工智能技术的企业之一,对于底层技术的构建十分看重,而这也是该公司成为档案资源数字化转型重要供应商的主要原因之一。在未来,汉王科技将还将在档案数字化转型领域中继续深耕,挖掘档案知识形成知识库,为企业及社会提供更加智能化的服务。
转载请注明:http://www.0431gb208.com/sjszyzl/3693.html