毕业论文
您现在的位置: 语言识别 >> 语言识别前景 >> 正文 >> 正文

等了十年,PC端能用的语音输入方案来了

来源:语言识别 时间:2024/9/30

从XP时代开始,我幻想用语音转文字。后来,手机提前实现了这功能,电脑端的语音录入却一直没进展。

为了能在PC上用语音打字,我从折腾到,经历了各种硬件和软件,终于找到最适合PC端的语音输入方案。

讯飞+小麦克风

年,讯飞推出PC版输入法。我以为PC语音输入的时代已经来临,买了个十几块的小麦克风,尝试语音转文字。

可测试结果却让人大跌眼镜,语音识别准确率异常的低。即便我把麦放在嘴边,依然无法录清楚,超过80%内容识别错误。

过低的识别率,让我怀疑是麦克风的收音出了问题,要想语音打字就需要换个好点的话筒。但囊中羞涩,只能暂停尝试。

讯飞+BlueYeti

过了几年,经济宽裕点后,下单网红录音话筒BlueYeti,幻想着4位数的话筒能带来完美的收音识别效果。

但事实却是再度被打击。

对BlueYeti的收音测试中,再次发现大量杂音,收货当天就直接退货。

十几元的麦克风和一千元的话筒收音效果差不多,语音输入的识别率也都超低。这让我猜测,语音输入识别率低与硬件无关,而是PC端的语音输入方案尚未成熟,是软件方面导致的问题。

就这样,我再次暂停了PC上的语音输入尝试。

外置声卡+动圈话筒

之后,用了5年的音箱出现问题,我升级了音响,并顺势添置了外置声卡,视听体验大幅提升。玩着玩着,突然想起我的语音输入梦,决定再尝试一次。

有了外置声卡,麦克风的选择多了许多,可以连接卡侬线接口的话筒了。

麦克风分为两类:电容麦、动圈麦。

电容麦收音好,但比较娇贵,怕潮怕摔,不能用桌面话筒架,适合用悬臂挂在空中,每次用完之后需要收起来。动圈麦的灵敏度和还原度都低于电容麦,存放和使用没什么要求,费用也会低些。

电容麦克风太麻烦,就选了简单的动圈麦-舒伯乐PROS。

选好话筒后,又配了麦克风支架和卡侬线,连上原本的外置声卡,搞定语音输出的硬件配置。

输入法之争

音频硬件搞定后,开始折腾语音输入法。

虽然讯飞在语音输入领域的牌子最响,但是讯飞PC输入法并不受重视,长年不更新。所以,我尝试了其他输入法的语音功能。测试中,搜狗的语音识别功能并不比讯飞弱,缺点也只有无法设置语音输入快捷键,整体体验上佳。于是,语音输入法切换成了搜狗。

然而,有次备份系统设置,我发现搜狗词库高达27万条,其中99%的内容是垃圾词条,即使偶尔输入过一次的内容也被输入法记录。更可怕的是,这次词库无法从云端删除,只要你输入过一次,搜狗就永远记住了。

这哪里是输入法,根本是键盘记录器。

国内其他输入法在这点上也都半斤八两,为了不被键盘记录器惦记,我只能切换为开源的小狼毫输入法。

语音输入则转用开源的QuickCut,使用阿里云、腾讯云的商用语音接口,识别率比免费的搜狗和讯飞都高。

QuickCut的缺点:语音输入时,要一直按大写键,不适合长语音录入;触发键无法更改,大写键与我的常用脚本冲突了。因此,长时间的语音输入只能借助手机上的飞书妙记来完成转录。

最终方案:微软语音输入

面对QuickCut的长语音输入难题时,

李乐推荐了微软语音输入-使用语音键入来说话,而不是在电脑上键入。

微软自带的语音输入,快捷键Win+H。3块钱的麦克风,距离50厘米,很低的声音读出来了。

测试后,发现微软语音输入确实是好用,甚至好用到有点恐怖。测试中,我临时有事,走到另外一个房间和家人说话,回来后发现刚刚的对话也被微软语音输入正确识别。

微软语音输入非常敏感,距离远、声音低也能识别。这样我不用为语音输入而特意移动话筒,可以继续把话筒放在不遮挡视野的远角。

「语音键入功能在此应用上受限制」在Notepad++和

转载请注明:http://www.0431gb208.com/sjsbszl/7654.html