毕业论文
您现在的位置: 语言识别 >> 语言识别介绍 >> 正文 >> 正文

AI语音技术泰斗级女科学家会带来哪些颠覆

来源:语言识别 时间:2024/9/17
北京治疗白癜风的医院哪家好 http://www.kstejiao.com/
她是卡内基梅隆大学CMUSPHINX语音识别系统的主要奠基人。她于年提出的基于决策树的马尔可夫状态聚类(MarkovStateClusteringbasedonDecisionTrees)算法,至今仍是主流语音识别系统的重要基础之一。黄美玉庆幸当初选择跟李开复学语音交互。她曾是微软研究院资深科学家(PrincipalScientist)。在微软工作的18年内,参与过Bing机器翻译、Cortana(“小娜”)等产品的研发,主导了微软在中国的语音识别和语意解析研究、Skype从语音到语音的翻译功能的声学建模、微软研究院牛津计划中语音识别语言模型的自适应及中文语意理解的自适应模型。由于其在语音/语言技术领域的突出贡献,她今年入选IEEE(国际电子电气工程协会)Fellow(院士),成为IEEEFellow名单中新增的又一名华人科学家。三年前,黄美玉离开了工作了18年的微软,加入了由Ex-Googler创立的中国人工智能创业团队出门问问(Mobvoi),成为出门问问的工程副总裁,并创立了MobvoiAILab,负责语音识别以及自然语言处理算法等方面的研究开发工作。“启蒙老师是李开复”“李开复是我的启蒙老师。”黄美玉告诉福布斯中国,李开复是最初让她发现自己对语音领域感兴趣的导师。年秋天,李开复即将从CMU毕业,但已决定留在学校任教并继续做研究及带学生。黄美玉说,她当时听李开复介绍正在研究的项目时就一下子被吸引住,直觉告之这将是个“蛮有趣的领域”。“李开复当时正利用大数据、统计学的原理做语音识别。这需要具备很强的数学和编程能力,这两者正好也都是我最喜欢的。”黄美玉说,而她最喜欢的就是数学和编程,直到现在还经常一写代码就停不下来。“开复就是花了一个小时给我讲了他整个研究系统的大致轮廓和理论逻辑。然后给我一篇BellLab的经典论文,并就让我自己去看他写的代码。”而当黄美玉仔细研究完李开复写的几千行代码后,她说,瞬间就有种“思路一下子通了的感觉”。“对照他的代码和相应的数学理论,让我发现了怎样把数学写成代码的方式。”这让当时的黄美玉对语音领域燃起了浓厚的兴趣。30多年后的今天,黄美玉依旧感到十分庆幸,当初因为去听了李开复的介绍,并迅速决定了以语音识别作为自己在卡内基梅隆大学(CMU)攻读博士学位的方向。那次与李开复的交流,让她找到了自己最有热情和兴趣的研究领域,并且一直孜孜不倦地“沉迷其中”。年李开复获卡内基梅隆大学计算机学博士学位,并此后在卡内基梅隆大学任教两年。李开复就是在卡耐基梅隆大学任助理教授期间,开创性地运用统计学原理开发出世界上第一个“非特定人大词汇量连续语音识别系统”,被《商业周刊》授予当年“最重要科学创新奖”,确立了她在信息技术研究领域的泰斗地位。黄美玉解释,李开复的这套利用统计学原理开发的系统,有三个开创性的贡献:一个是做大词汇量识别。之前的研究都只是做小词汇,10个数字或者26个英文字母之类的,而李开复做到了1,个词汇。尽管以现在大数据时代的标准看起来1,个词汇绝对称不上大词汇量,但与之前的10个相比是个大飞跃。第二个贡献是,做到了非特定人(Speaker-independent)语音识别,以前的技术都是特定人(Speaker-dependent)语音识别,也就是说,换了一个说话的人,识别准确度就可能大大降低,这样在开发过程中就需要给每个说话者都训练一个模型才能保证准确度。美国DARPA提供的语音训练库,含多人不一样内容的说话,她利用统计学的模型可以综合出不同人发同一个音时的规则和共性,就可以通过一个模型来识别不同人讲的话。第三个突破是实现了Continuousspeechrecognition,即可以持续性地语音输入,在这之前必须一个一个词停顿地对机器说话。而这些都是开创性地运用统计学、数学的原理实现的。“这让我看到了怎么把现实世界用数学去模拟,再用计算机去实现数学。”黄美玉说。年11月,黄美玉获得美国卡耐基梅隆大学计算机科学博士学位,导师是RajReddy(年图灵奖获得者)、李开复和黄学东博士。三位导师和师兄洪小文(微软亚洲研究院院长)对黄美玉的科研都有不可磨灭的影响。毕业后20多年来,语音识别就一直是她最有热情的研究领域。创立于年的出门问问,其创始团队中有多名谷歌前工程师,包括创始人兼CEO李志飞、CTO雷欣。“要把孩子生下来”——以产品思维做研究“我们和Google很像,做研究的同时,也是要做产品的。”谈到在出门问问的研究工作模式,黄美玉十分认同研究和产品结合的思路。在微软做了很长时间的理论研究后,黄美玉越来越意识到技术和产品紧密结合的研究才更有意义。“就像孕育一个孩子,经历从怀孕到要呱呱落地并且存活下去,才算成功。”她说,这其中,要填补实验室和现实的距离,必须充分理解从实验室到商业落地之间的漫长的过程。而由产品思维出发的研究,会发现另一种创造力。“你要时刻从产品用户体验的角度去思考如何把代码更优化。而当你真的做出一个产品来,有人在用,这带给人很大的成就感。”在微软工作期间,黄美玉曾于年回到中国负责微软在中国的语音识别和语意解析研究,包括做中文的Cortana语音识别等。黄美玉说,当时的想法是,希望可以把一整套中文的语音交互做到手机中,这样,这项技术才能被更多人使用。“只可惜微软开发的Windows手机没有什么市场,后来把这套系统做到了Windows10的操作系统中。而在移动互联网时代,在PC上使用语音交互的用户显然要少很多。我当时的热情就被浇灭了一大半。”在黄美玉看来,一个新技术只有被人们大量使用,才能体现价值,在移动互联网时代,她希望语音交互更多搭载到移动端的界面中,才是可以惠及更多人的方式。这也是之后她愿意加入出门问问的一大原因。以产品思维出发做研究,这是谷歌的文化,由Ex-Googler(前谷歌员工)创办的出门问问延续了这一文化。创立于年的出门问问,其创始团队中有多名谷歌前工程师,包括创始人兼CEO李志飞、CTO雷欣。以语音交互和软硬结合为核心,出门问问拥有自主研发的数字信号处理、热词唤醒、语音识别、自然语言理解、对话管理、垂直搜索、智能推荐、语音合成等全栈式语音交互技术,如今已经成长为在语音赛道人工智能中的独角兽公司。自成立之初,公司就以定义下一代人机交互、推动大众进入人工智能消费时代为使命。到目前为止,已经在可穿戴、车载和家居等消费级场景,推出了智能手表、智能耳机、智能音箱、智能后视镜等人工智能软硬结合产品。去年开始,凭借在消费级场景积累的人工智能技术和经验,出门问问将其语音智能服务向企业级业务延伸,用人工智能技术为更多开发者和企业级客户赋能。目前已探索的企业级场景包括AIoT、金融、保险、电信、汽车、健康养老等,并推出了AI语音芯片模组“问芯”系列、AI智能反欺诈解决方案“问真”、AI智能客服语音系统“问言”、车载前装AI语音人机交互解决方案等产品。值得一提的是,出门问问也获得了谷歌投资为数不多的人工智能创业团队之一。年,公司获得由谷歌投资的数千万美元C轮融资。该项投资也是谷歌在年关闭其在中国大陆的搜索业务后的首笔直接投资。通过该笔投资,出门问问获得了与谷歌的合作,为中国市场提供中文版的WearOS(原AndroidWear)操作系统,以及应用商店和人工智能助手。包括华为、摩托罗拉等公司在中国市场的智能手表产品,使用的都是由出门问问提供的中文语音搜索服务。据悉,该公司在海外的智能手表TicWatch系列也使用了谷歌的WearOS平台以及GoogleAssistant语音助手功能。当时业界对于谷歌投资出门问问也多有猜测,认为这或将是谷歌借此回归中国市场的策略之一。因为在谷歌退出中国市场后,其旗下的语音助手、地图相关服务也都受到影响,难以在中国大陆地区使用。对此黄美玉也表示,出门问问是谷歌在中国的紧密合作伙伴,“谷歌到现在都一直在开发中文语音识别,他们也和我们的语音团队有一些交流合作。”黄美玉透露。目前,由黄美玉负责带领的出门问问位于美国西雅图的MobvoiAILab,专注于人工智能的科技创新和研发,保持公司的技术随时跟进并期望突破国际领先水平。自年以来,MobvoiAILab在自然语言处理和语音领域的国际顶级会议(如ACL,EMNLP,ICASSP,Interspeech)上发表了11篇国际会议论文。“但同时更重要的是,要把研究的成果落地到产品里面。”黄美玉强调。

转载请注明:http://www.0431gb208.com/sjszlfa/7586.html