康奈尔大学开发Speechin智能项链,可识别佩戴者的唇语
语音识别技术让我们可以让Siri检查明天的天气,或者让Alexa播放我们最喜欢的歌曲。
但这些技术需要可听的语音。如果一个人不会说话,或者在特定环境中(商务会议或安静的图书馆)发声说话不合适怎么办?
康奈尔大学鲍尔斯计算与信息科学学院信息科学助理教授张成和博士生张瑞东给出了答案:SpeeChin,一种无声语音识别(SSR)设备,可以使用图像识别无声命令颈挂式红外(IR)相机捕捉到的颈部和面部皮肤变形。该实验装置建立在张成教授去年推出的NeckFace项链的基础上,该项链可以监测佩戴者的面部表情。
除了微处理器、电池和蓝牙模块,Speechin还配备了一个朝上的红外摄像头,可以对佩戴者的下巴下方进行成像。它通过一组延伸到两侧的“翅膀”保持在这个方向,同时还有一个硬币作为其底部的重量。为了解决隐私问题,它不会直接指向用户的脸。
利用基于机器学习的算法,该设备能够根据佩戴者的下巴运动来确定佩戴者在无声地说出哪些命令。然后它可以将这些命令中继到配对的智能手机。
该系统最初是通过监测20名志愿者的下巴运动来训练的,他们默默地说出已知的单词和短语——其中10人说英语,另外10人说普通话。在随后的测试中,参与者说出了54个常用的英语命令,以及44个普通话单词和短语。
事实证明,这条项链在识别英语和普通话语音方面的准确率分别为90.5%和91.6%。当志愿者在行走时使用该设备时,这些数字确实显着下降,因为他们各自的行走方式导致他们的头部以不可预测的方式移动。
希望一旦进一步发展,该技术不仅可以用于人们必须保持安静的环境,还可以用于智能手机无法听到用户声音的嘈杂环境。Speechin项链也可以供缺乏语言能力的人使用。
一篇关于这项研究的论文最近发表在《计算机协会关于交互式、移动、可穿戴和无处不在的技术的论文集》上。
转载请注明:http://www.0431gb208.com/sjslczl/3178.html