机器学习改进语音识别技术

来源：语言识别时间：2022/5/6

听力损失是一个快速增长的科研领域，因为随着年龄的增长，婴儿潮一代的听力损失人员的数量将不断增加。

为了了解听力损失如何影响人们，研究人员研究了人们识别言语的能力。如果存在混响、某些听力障碍或显着的背景噪声，例如交通噪声或多个扬声器，则更难识语音。

因此，助听器算法通常用于改善人类语音识别。为了评估这些算法，研究人员进行了实验，旨在确定识别特定单词数（通常为50%）的信噪比。然而，这些测试是时间和成本密集型的。

在由美国声学学会通过AIPPublishing出版的《美国声学学会杂志》（TheJournaloftheAcousticalSocietyofAmerica）中，来自德国的研究人员探索了一种基于机器学习和深度神经网络的人类语音识别模型。

"我们模型的新颖之处在于，它为听力受损的听众提供了对具有非常不同复杂性的噪声类型的良好预测，并显示出与测量数据的低误差和高相关性，"来自CarlVonOssietzky大学的作者JanaRo?bach说。

研究人员使用自动语音识别（ASR）计算了听众每个句子理解的单词数。大多数人都通过Alexa和Siri等语音识别工具熟悉ASR。

该研究由八名听力正常和20名听力受损的听众组成，他们暴露于各种掩盖语音的复杂噪声中。听力受损的听众被分为三组，具有不同程度的年龄相关听力损失。

该模型允许研究人员预测具有不同程度听力损失的听力受损听众的语音识别性能，这些噪声掩蔽器具有时间调制的复杂性和与真实语音的相似性。

"我们最惊讶的是，这些预测对所有噪声类型都有效。我们预计该模型在使用单个竞争说话者时会出现问题。然而，事实并非如此。"Ro?bach说。

该模型创建了单耳听力的预测。展望未来，研究人员将开发一种双耳模型，因为双耳听力水平将对语音的理解产生影响。

除了预测语音清晰度之外，该模型还可能用于预测听力或语音质量。

信息源于：sciencedaily

关于我们

21dB声学人是中国科学院声学研究所苏州电声产业化基地旗下科技媒体，专注于声学新技术、音频测试与分析、声学市场调研、声学学习社群建设等。

合作推广

稿件投稿｜项目推广｜创业支持请发送需求至以下邮箱，我们将派专人与您联系21db

ioasonic.

下一篇文章：没有了