科大讯飞发明的语病识别方案,能够结合语义信息和句法信息对待识别语句中的句法结构问题和语义问题进行病句识别,进而准确得到病句识别结果。
集微网消息,我们日常在文本输入的过程中,经常会由于各种原因导致输入的文本存在语病,例如拼写别字、搭配不当、成分残缺等均可能导致文本中存在语法错误、语义不明等问题。
目前,相关自动纠错软件大多通过语言表示模型(BERT)对待识别语句进行语病识别,但是该方法对于语义性病句的识别精度很低,无法满足人们的日常使用需求。为此,科大讯飞在年12月3日申请了一项名为“语病识别方法、装置、电子设备和存储介质”的发明专利(申请号:11467935.7),申请人为科大讯飞河北科技有限公司。
根据该专利目前公开的相关资料,让我们一起来看看这项技术方案吧。
如上图,为该专利中发明的语病识别方法的流程示意图,首先,系统确定待识别语句,待识别语句通常为户直接输入的,或者是将采集所得的音频进行语音转写后得到的。其次,提取待识别语句中各分词的分词表示,分词表示用于表征对应分词的上下文语义和对应分词与待识别语句中其余分词间的句法依赖关系。
该方案中设置了设置“父亲孩子关系”,“孩子父亲关系”,“兄弟关系”和“无直接关系”四种句法依赖关系。例如,对于待识别语句“他的家乡是福建省福州市”,“他”与“家乡”是父亲孩子关系,“是”与“市”是孩子父亲关系,“家乡”与“市”是兄弟关系,“市”与“他”无直接关系。
此外,在提取待识别语句中各分词的分词表示时,可以将待识别语句输入至预训练语言模型,由预训练语言模型挖掘各分词的上下文语义信息,以及各分词与其余分词间的句法依赖关系。从而能够准确得到表征对应分词的上下文语义信息和对应分词与其余分词间的句法依赖关系的分词表示。
最后,基于待识别语句中各分词的分词表示,以及待识别语句的句法结构,对待识别语句进行语病识别。例如待识别语句“帮我开卧室风扇静音风”经句法分析可知,分词“帮”、“我”、“开”、“卧室”、“风扇”、“静音风”分别是动词、代词、动词、名词、名词、名词。
其中,“帮”是文本中的核心关系HED,“我”是“帮”的兼语DBL,“帮”和“开”之间存在动宾关系VOB,“开”和“静音风”之间存在动宾关系VOB,“风扇”和“静音风”之间、“卧室”和“风扇”之间存在定中关系ATT。由此可见,待识别语句的句法结构可以从各分词的词性以及各分词之间的句法结构层面上表征待识别语句中各分词之间的句法依赖关系。
因此,相较于传统方法中采用语言表示模型仅能对结构性病句进行识别,该方案融合了各分词表示中的对应分词的上下文语义和对应分词与待识别语句中其余分词间的句法依赖关系,以及句法结构中的各分词之间的句法依赖关系。从而能够结合语义信息和句法信息对待识别语句中的句法结构问题和语义问题进行病句识别,进而准确得到病句识别结果。
如上图,为该专利中发明的预训练语言模型训练方法的流程示意图,首先,将第一样本语句输入至初始语言模型,得到初始语言模型输出的第一样本语句中各分词的预测分词表示。其次,将第一样本语句中各分词的预测分词表示输入至句法依赖关系分类模型,得到句法依赖关系分类模型输出的第一样本语句中各分词间的预测句法依赖关系。
最后,基于第一样本语句中各分词间的预测句法依赖关系以及第一样本语句中各分词间的句法依赖关系标签,对初始语言模型和句法依赖关系分类模型进行联合训练,得到预训练语言模型。
最后,我们来看看该专利中提供的句法结构确定方法的流程示意图,如上图所示。首先,对待识别句子进行句法分析,得到待识别句子中各分词之间的句法依赖关系。接着,基于各分词之间的句法依赖关系,构建表征待识别句子中每个分词与其它分词之间的句法依赖关系结构树,作为句法结构。
具体来说,通过句法分析得到的每个分词之间的句法依赖关系,然后各分词之间的句法依赖关系,构建表征待识别句子中每个分词与其它分词之间的句法依赖关系结构树,作为句法结构。例如,可以基于每个分词之间的句法依赖关系,确定其中一个分词与其余各个分词之间是否存在句法依赖关系,进而生成表征该分词中的每个字与其余各个分词中的每个字之间句法依赖关系的结构树,即可得到结构树形式的句法结构。
以上就是科大讯飞发明的语病识别方案,该方案能够结合语义信息和句法信息对待识别语句中的句法结构问题和语义问题进行病句识别,进而准确得到病句识别结果。
关于嘉勤
深圳市嘉勤知识产权代理有限公司由曾在华为等世界强企业工作多年的知识产权专家、律师、专利代理人组成,熟悉中欧美知识产权法律理论和实务,在全球知识产权申请、布局、诉讼、许可谈判、交易、运营、标准专利协同创造、专利池建设、展会知识产权、跨境电商知识产权、知识产权海关保护等方面拥有丰富的经验。
(校对/holly)
转载请注明:http://www.0431gb208.com/sjszlfa/6661.html