编辑导语:自然语言理解俗称“人机对话”,AI领域分支科学,以语言学为基础,涉及心理学、逻辑学、声学、数学和计算机科学。其算法和逻辑的设计和实现自然十分复杂和困难,作为智能语音系统的产品,本文作者今天从产品的视角和大家简单的聊一聊“自然语言理解”及其周边知识。
一、名词解释
1.语音交互“三驾马车”
1)ASR
语音自动识别,把外界的声音转写成文字,相当于人类的耳朵。
2)NLP
分为NLU和NLG两部分,NLU负责理解内容,NLG负责生成内容。
前者是对外界输入的理解,后者是根据理解的内容生成对应的输出,相当于人类的大脑。
3)TTS
语音合成,NLG生成的文字由TTS由不同音色播报出来,相当于人类的嘴巴。
2.自然语言理解
1)语料
语料是构成训练集和测试集的基本单位,可以是句子、短语,通过对大量语料学习帮助模型识别用户的意图。
2)训练集和测试集
顾名思义前者是用来训练模型进行意图识别的,而后者是用来测试模型学习效果如何的,二者都是由语料构成。
3)置信度
人为设定,超过了模型的置信度表示模型就会去理解(结果可能会理解错或理解对),小于置信度,强制模型不去理解。
3.模型及算法
1)机器学习模型
通过算法使得机器能从大量历史数据中学习规律,从而对新的样本做出智能识别或对未来做出预测,相当于培养模型“举一反三”的能力。
2)神经网络模型
通过大量的简单计算单元构成的非线性系统,在一定程度上模仿了人脑神经系统的信息处理、存储和检索功能,是对人脑神经网络的某种简化、抽象和模拟,相当于“由浅入深”的学习过程。
二、语音交互的应用场景
从目前商业市场划分来看,语音交互主要应用场景及细分赛道众多:智能家居、车载场景、医疗场景、教育场景和客服场景等。
从有无硬件载体上可简单粗暴的分为两大类:
1.聊天机器人
产品定位于日常的“人机闲聊”。
可掌控简单或复杂场景人机交互,依赖于ASR、NLP和TTS,通常使用嵌入式系统与硬件完成对接,如常见的天猫精灵、Siri和车载机器人等,主要应用在智能机器人领域。
2.语音外呼
产品定位于“完成任务”,业务属性更强。
上游通过呼叫中心(FS)、电信运营商拿到路线和号码资源,下游触达用户完成活动营销、欠款通知和生活服务,主要应用于智能语音外呼和呼入,通常会有固定的“业务流程“作为客户引导手段。
目前智能语音行业由于应用场景、业务要求、客户体验或监管要求等原因都会使用封闭问答集来约定与客户交互的边界。
如在保险营销的业务中,客户若是询问了和业务不相关的内容(今天气温是多少度?晚餐有什么推荐的吗?)机器会使用提前设定好的固定的“兜底”话术来应答(你说啥,我不懂,请回答业务相关的内容)将用户重新拉回业务流程中,而不会与客户进行“不相关领域”的闲聊。
由于业务属性的特殊性,客服性质的外呼业务对监管和用户投诉格外
转载请注明:http://www.0431gb208.com/sjsbszl/1276.html