人声分离攻破ldquo鸡尾酒会rd

来源：语言识别时间：2022/5/1

“

时隔65年，在近日GoogleResearch软件工程师InbarMosseri和OranLang发表的论文《LookingtoListenattheCocktailParty》中，采用了一个全新的视听模型为“鸡尾酒会”问题提供了一个合适的解决之道，这一突破为语音识别不仅带来了更多新可能，同时也成为该领域一个划时代的分水岭。

”

在嘈杂的室内环境中，比如在鸡尾酒会中，同时存在着许多不同的声源：多个人同时说话的声音、餐具的碰撞声、音乐声以及这些声音经墙壁和室内的物体反射所产生的反射声等。

在声波传递过程中，不同声源所发出的声波之间以及直达声和反射声之间会在传播介质(通常是空气)中相叠加而形成复杂的混合声波。但在这种复杂的声学环境下，听者却能够在相当的程度上听懂所注意的目标语句。

听者是如何从所接收到的混合声波中分离出不同说话人的言语信号进而听懂目标语句的呢？这就是英国的认知科学家EdwardColinCherry在年所提出的著名的“鸡尾酒会”问题。

自Cherry提出“鸡尾酒会”问题半个多世纪以来,大量的科学家试图去解决这个问题，甚至试图制造一个计算机言语识别的智能系统使其具有在嘈杂环境中识别目标语句的功能。但到年，“鸡尾酒会”问题还没有得到满意的解答。

音频-视觉语音分离

解决“鸡尾酒会效应”

为了解决“鸡尾酒会”效应，Google从YouTube上搜寻了10万个高质量讲座和演讲视频生成训练样本，谷歌研究团队解释道，他们通过算法追踪面部动作，通过学习YouTube上十万份优质的讲座和演讲视频，利用卷积神经网络模型将声音分离出来。

所谓的音频-视觉语音分离模型，就是加强选中人的语音，同时减弱同一时间其他人的音量。该方法适用于具有单一音轨的常见视频，用户也可以自行选择倾听对象来生成对其的单一音轨，或者基于语境由算法进行对特定发声对象进行选择。

在试验中，输入是一名或多名发声对象，同时被其他对象或嘈杂背景所干扰的视频。输出的是将输入视频的音轨分解成纯净的音轨，并对应上相应的说话者。

在模型训练过程中，网络系统学习了视觉和音频信号的编码，然后将它们融合在一起形成一个音频-视觉表现。通过这种表现，网络系统可以学会为每位发声对象对应输出时频掩码。输出的时频掩码与噪声输入频谱图相乘，随后转换成时域波形，从而形成每一位说话者单独纯净的音频信号。

一般提到鸡尾酒会问题，更普遍或默认的情况是纯音频的分离，包括但不限于多人声/声源分离、降噪/增强等，而视环境情况不同也分为单通道/多通道，近场/远场，有噪声/无噪声等。

每一个子问题都是一个研究领域，而不同子问题之间并不完全重合，使得研究者一般只能将重心放在其中某些问题的某些情况的解决方案上。

“鸡尾酒会效应”难题的解决为语音识别领域的许多问题提供了思考路径，同时视觉-音频网络识别系统的提出，也为人声分离提供了视觉+听觉的解决方式。

为人工智能提供启示

通用人声分离技术任重道远

那么人声分离技术真正应用于市场中会对产品产生哪些改变呢？首先智能音箱的语音识别精确度将大幅提升。目前，智能音箱的技术难题在于语音识别技术如何在嘈杂的环境中识别语音指令，包括酒吧和体育场等人声鼎沸的场景。

为此，微软在Xbox上部署了一款名为VoiceStudio的应用，专门收集人们在玩游戏或看电影时的对话信息。为了吸引用户贡献自己在玩游戏过程中的对话内容，该公司为参与其中的用户提供了各种各样的奖励，包括点卡和游戏道具。

但是，效果并不尽如人意。如何在嘈杂环境识别人声、如何分别多人声音依然是智能音箱的难题。日后，随着智能家居的普及，智能音响成为了物联网环境下与其他家居沟通的“钥匙”，而AI人声分离技术的应用，攻克技术问题的同时也为智能音响提供了一个安全性较强的“保险箱”。

其次，“鸡尾酒会效应”在动物界的应用为无人驾驶提供一定启示。以蝙蝠躲避障碍和捕食为例，其在飞行过程中会发射一系列超声波，超声波遇到障碍后反射回来，蝙蝠通过感知反射信号到达两耳的时间差来判断障碍物的方向，通过感知反射信号的强度来判断障碍物的距离。

科学家通过研究发现，蝙蝠并没有改变发出的超声频率，而是通过叫声变大，持续时间变长，发射频率增多等方式来解决。

想提高雷达的定位精度，提高信噪比是根本。比如蝙蝠叫声变大，相当于提高了信号的能量；而叫声持续时间变长和叫声频率增多，则是增加了信号的样本点数。在噪声不相关的情况下，经过简单的平均就可以降低噪声的影响。

随着日后无人驾驶的普及，人声分离模式或可衍生出“雷声分离”，将雷达误收风险降到最低，从而保证无人驾驶障碍识别方面的安全性。

在更大的范围里，业界研究的还是只从音频出发的分离，因为这种是最普遍存在、最容易推广的情况。在最近三年里有很多基于深度学习的、只从音频进行分离的研究，相对于传统方法已经有了非常大的提升，但距离一个通用的、在任何环境下都接近人脑性能的分离系统，还有很大距离。