综述:
自然语言处理技术在金融领域中已经越来越多的被应用,防控中心在对企业监测预警中,通过企业注册地址的解析,准确分析企业的迁入、迁出,区域企业的新增、减少,绘制风险企业的分布地图,从区域的维度对企业的风险进行预判。
关于自然语言处理
自然语言处理(NaturalLanguageProcessing,NLP)是一门通过建立形式化的计算模型来分析、理解和处理自然语言的学科,也是一门横跨语言学、计算机科学、数学等领域的交叉学科。现在,自然语言处理的工具有很多,也有社会计算等领域的机构和专家在研究更加精确的技术。就目前来看,分词系统、语义分析、文本分类、信息检索和机器翻译等是比较常见的应用方法。
在地址解析中的应用
由于中文语法的特点及表达方式的差异,对地址数据表述经常会出现不规范、甚至出现错误的情况。非标准地址或错误地址主要有以下几种情况:1、行政区划信息缺漏,地址串具有明确的指向性;2、行政区划信息缺漏,地址串不具有明确的指向性;3、地址串的地址元素之间存在混乱、导致的空间约束关系不明晰;4、地址串存在描述错误的空间约束关系。
从地址数据源中检测和消除错误数据、不一致数据,提升数据总体质量,对地址进行标准化的清洗工作,是一项重要的环节。
自然语言处理在地址解析中的应用主要采用中文分词技术对地址进行分词。中文分词技术是中文文本处理的一个基础步骤,也是中文人机自然语言交互的基础模块。中文分词根据实现场景的不同,主要分为基于词典分词算法和基于统计的机器学习算法。词典分词算法分词速度块,但存在难以穷举的问题,统计算法则克服了词典算法的不足,通过机器自动学习,但对训练数据规模较大。
在统计学模型中,条件随机场(CRF)是其中一种基于概率统计的机器学习模型,常用于自然语言处理中的分词、词性标注、命名实体识别等。在处理序列标注问题方面效果良好,可以长距离地表达上下文依赖,具备强泛化能力和较好的学习能力,满足批量解析地址和快速实现地址编码的要求。
针对大量自然语言描述随意的地址,首先设计一套地址要素分类标注体系,将原始语料进行地址要素分类标注和格式转换,得到标准化的标注语料。然后制定特征模板,选取已标注语料开展模型训练,根据模板生成大量特征函数,并计算权重从而得到训练好的模型。最后,利用训练好的模型进行预测,得到最佳标注地址序列,实现对未知地址的解析。
总结
近年来,由于深度学习技术的出现和发展,以BERT为代表的大规模预训练模型得到了广泛的应用,自然语言处理技术也突破并颠覆了传统技术的范式,尤其是在金融防控领域中,自然语言处理已经越来越多的被应用在了舆情分析、监测预警等场景中。防控中心在对企业监测预警中,通过企业注册地址的解析,准确分析企业的迁入、迁出,区域企业的新增、减少,绘制风险企业的分布地图,从区域的维度对企业的风险进行预判。
然而,当前自然语言处理领域还存在着诸多问题,例如模型可解释性问题、缺少逻辑推理能力、依赖大量标注数据等,相应的也有很多研究试图解决上述问题,例如研究小样本的模型训练、在深度神经网络中引入先验的专家知识(如知识图谱)等等。虽然目前自然语言处理技术还远未达到人类处理和理解语言的程度,但目前技术的飞速发展已显现出自然语言处理技术的未来是非常值得期待的。
本文内容为原创,转载请注明出处!
转载请注明:http://www.0431gb208.com/sjszjzl/1240.html