苹果揭秘HeySiri的开发细节,原

来源：语言识别时间：2025/4/1

雷锋网AI科技评论按：苹果的新一期机器学习开发日记来了~这次苹果介绍了通过讲话就能唤醒Siri的“HeySiri”功能是如何从技术上实现的，同时也介绍了为了从用户体验角度改善“HeySiri”的表现，苹果的工程师们都做了哪些取舍和调整。与之前的文章一样，苹果的产品开发中并没有令人震惊的新技术，但严谨、细致、以用户为中心打磨产品的态度是自始至终的。雷锋网AI科技评论全文编译如下。iOS设备上的“HeySiri”功能可以让用户无需接触设备就唤醒Siri。在iOS设备上，有一个非常小的语音识别器一直在运行着，就等着听这两个词。当它检测到用户说“HeySiri”后，Siri其它的部分就会把接下来的语音分解成一个控制指令或者一次查询。“HeySiri”检测器中使用了一个深度神经网络（DNN），每时每刻把你的语音模式转换成一个不同讲话声音的概率分布。它使用了一个时间积分的过程对听到的语音计算一个置信度分数，判断你说的词语是不是“HeySiri”。如果这个分数足够高，Siri就会醒来。这篇文章就简单介绍了其中蕴含的技术，它的主要目标读者是对机器学习有一些了解但是对语音识别了解不多的研究者们。无需触碰就与Siri互动如果要让Siri做什么，只需说：“HeySiri”。当说出“HeySiri”时不需要按设备上的任何一个按钮，这使得Siri无需触碰就可以操作。这件事看起来简单，但是在幕后有许多的故事才能让Siri唤醒得又快又高效。硬件、软件和网络服务无缝共同合作，提供了出色的用户体验。图1，HeySiri功能在iPhone上的工作流程在做饭或者开车这种双手很忙的时候，能够不按按钮就使用Siri显得尤其的有用，使用AppleWatch时也是这样。如图1所示，整个系统包含许多组件。Siri的大多数功能都是在云端实现的，包括主要的自动语音识别、自然语言转述以及各种丰富的信息服务。也有一些服务器会给手机中的检测器提供声学模型的更新。这篇文章重点介绍系统中运行在本地设备上的部分（比如iPhone或者AppleWatch上）。这篇文章尤其

转载请注明：http://www.0431gb208.com/sjszlff/8886.html

上一篇文章：如何将文字识别扫描出来帮你一站式解决文字

下一篇文章：复旦再推AI文本检测工具谛听识别Ch