深蓝学院是专注于人工智能的在线教育平台,已有数万名伙伴在深蓝学院平台学习,很多都来自于国内外知名院校,比如清华、北大等。
本文整理的三个问题是老师们对于现在是否有必要学习传统方法以及给工作中的伙伴们的一些建议,文末整理了大家在直播中提问的一些问题,希望大家可以通过老师的分享能够有所启发。
分享嘉宾(排名不分先后)
吴本谷曾先后在百度、北京猎户星空供职,主要负责各场景下语音识别声学模型优化,语言模型优化,声纹系统搭建等工作。在kaldi上开源了aishell、aishell2、hi-mia等recipe,包含语音识别,声纹识别,语音唤醒等。
张俊博
小米语音技术专家,中国科学院声学研究所博士,师从颜永红老师,研究方向为语音识别和发音质量评测,发表论文十余篇,著有出版物《Kaldi语音识别实战》。在开源方面,和DanielPovey博士合作,为K2和Kaldi贡献代码,其中在K2子项目Lhotse上贡献代码量排名第二。杨超出门问问语音技术总监,西北工业大学硕士,师从谢磊教授,研究方向为机器学习、自然语言处理和非参数贝叶斯模型。先后就职于微软(cortana语义理解和语言模型)、思必驰(知识图谱和对话系统研发)、蛙声科技(语音技术落地)。
付立
京东数科语音算法工程师,本科和博士毕业于北京航空航天大学,研究方向包括语言识别,机器学习等。在语音技术领域发表多篇论文并申请发明专利,并组织开展JDD第一届金融对话语音识别比赛。
现在深度学习是语音领域的主流算法,传统的语音算法,比如GMM-HMM,是否没必要再学习了呢?
付立老师:我觉得这个问题是对于一些没有传统语音算法背景的同学来提的,关键还是在于学习深入到什么程度的问题,我们不妨换一个问法:现在深度学习已经成为语音领域的主流,我也对深度学习非常感兴趣,但是个人的时间和精力毕竟有限,是不是可以不用花太多时间在一些传统的方法上面呢?
新技术被追捧,老技术被冷落,这很正常,如果在学习和工作中和传统的语音识别没有太多交集,确实没有必要强迫自己分散太多时间。
但是如果条件允许的话,我建议还是可以了解一下传统语音方法的基本思想,因为深度学习其实也是因为一些数据和算力的迭代才逐渐发展起来的一种技术工具,有一些思想在里面,如果你长期从事语音的话,后面还是很有可能会去借鉴传统方法的一些思想。就技术手段而言,方法的变化非常快,说不定哪一天,HMMisallyouneed。
吴本谷老师:我一般在面试的时候,还是要求大家会点GMM和HMM的东西,因为传统的东西会有一些底层的原理在里面。但我不是说你要去学传统,现在的attention,现在的transducer,他们的原理跟GMM相比,有些对齐的概念是一样的。
我觉得GMM和HMM这套东西可以帮助大家去理解对齐的概念,理解了对齐的概念,其他的东西都好理解。现在很多的算法,最新的一些端到端方法,包括attention,底层的东西其实是一个道理。
你可以把语音整个问题抽象起来,就是一个不定长到一个不定长或者定长的一个映射关系,核心是在这里面你用什么方法去解决这个问题。GMM和HMM只是解决问题中的一个环节,现在的LAS,或是带attention的算法,包括transducer的方法,其实也是解决这个问题的一个类型的解决方法。
在面试中我肯定会问传统方法的,如果你不了解,肯定会减分,所以我还是希望大家把这些底层东西了解一下。在你遇到核心问题的时候,了解底层的东西对你还是有好处的。HMM的算法、这套理论现在在唤醒,在VAD等等领域里面还在使用,在语音主流算法里还没有完全被端到端的方法替换,是有一些本质的原因在里面的,我希望大家可以去思考这个点。
杨超老师:我觉得如果你所在的团队或者你已经工作了,用的主流的技术都是深度学习,完全没有用传统的,那你可能要自己花点心思去学,也不用花太多的时间。
整个传统语音的内容是很多的,要把它真的学透,可能要博士去学才行。但是如果只是了解原来的那套基于层级的、基于HMM的方式,以及FST解码、判别式学习这些,整个学下来也不会花太多的时间。如果你是学生的话,可以上一个深蓝学院的课,再去学一下Kaldi,把张老师那本书好好读两遍,基本上面试就没有什么问题了。
之前HMM的那套东西,跟你们现在学的CTC,本质上是一样的,只不过一个从声学模型角度去做,一个从神经网络的视角去处理对齐这个事情,其他的端到端的算法也是从其他的方式来处理对齐这件事情。所以从很多思路上讲,GMM和HMM都是个挺简单的东西,没有必要纠结要不要学,有时间纠结,可能已经把它学完了。
张俊博老师:我的想法可能比其他老师要更苛刻一些,如果你面试的是语音识别相关岗位,凡是对传统的基于HMM的方法没有基本概念的,一律我是不会录用的。
我回答上个问题的时候的确说到我更看重学习能力,不看重具体知识的掌握,但是如果这种最基本的知识你都不去学习的话,那我认为你的学习能力不怎么样。学习能力不仅包括把东西学会的能力,也包括重点学什么的能力,越是基础的知识,我认为越得好好掌握,反而是最新的技术,比如现在出了什么论文,我觉得可以粗略了解一下。对于经典的方法,必须要花大量的时间彻底掌握。
另外,我觉得无论做什么领域,都应该去熟悉这个领域的发展历史,比方说做语音识别的应该了解:哪个年代最早有人开始做语音识别?最早他们是怎么做的?后来如何发展的?每一个时代比上一个时代进步在什么地方?对这些都得了解。
不仅是GMM-HMM,更早的一些技术、很古老的技术都有必要去掌握。一方面,古老的方法确实在很多环境中能用得到,设想上也能给我们很多启发;另一方面,了解技术发展的历史也有助于对这个领域的发展有更高层次的理解。
对语音的入门者/学生有何建议?
付立老师:对语音的入门者或者学生,我建议主要做好三点:
首先是精选一个方向,选择一个语音领域的细分方向,比如识别、合成、事件检测、前端处理等,可以结合自己的兴趣以及这个行业的情况综合考虑。
第二点是要勤于动手,可以自己实现,或者在一个开源项目的基础上复现一个别人的工作,一开始可能达不到别人的效果,我之前有时候也会去Github上找一些项目,怎么都出不来别人说的那种好的结果,但是通过自己去调,去仔细的分析,然后慢慢地优化、改进,最后得到一个别人的baseline的效果,这个过程我觉得是最能锻炼和提升个人能力的方法。
第三个,也是很重要的就是积极的讨论,多和自己认识的业内人士探讨,主动和别人沟通,脸皮厚一点,有问题也可以在相关的
转载请注明:http://www.0431gb208.com/sjszjzl/3532.html