毕业论文
您现在的位置: 语言识别 >> 语言识别市场 >> 正文 >> 正文

语音识别能否颠覆人工转录甚至翻译行业淘汰

来源:语言识别 时间:2022/4/23

上个月美国著名科技杂志《连线》上刊登了Jesse的那篇《WhyOurCrazy-SmartAIStillSucksatTranscribingSpeech?》,说句实话,一看到这个标题,笔者的目光就没再挪开。

我们都知道有这样一种职业叫速记速录师!会议现场,嘉宾访谈网上直播,庭审现场,询问笔录现场,新闻采访现场,影视字幕文字制作,电话同声实时记录,远程在线同步记录等等,都离不开他们的身影!他们的工作就是实时采集语音信息,同步生成电子文本提供给大家。一个人正常讲话的语速为每分钟至个汉字左右,而一个速记速录员的速度可以达到每分钟-字,而且其准确率不低于98%。一个高级速记速录师的功力就更深厚,每分钟可达字。提供如此优质服务,势必也拥有不菲的价格,声音资料整理每小时的收费价格至元,现场会议大屏幕投影的实时转录,大概是每小时元的价格。

其实,对于这种自然的应用场景,通过语音识别技术来解决是再好不过的选择了,我们人类完全可以从这种繁杂的简单脑力劳动中解放出来。那么语音识别技术现在能否做到这一点呢?

微软高级科学家,从事语音识别技术已有30余年的黄学东专家说“10年前,语音识别的错误率高达80%!如今,我们将错误率从80%之高降到了仅有8%!如果我们在未来两三年内一直保持这种态势,奇迹一定会发生”。这也就表明,在原有的声学模型的基础上,加上大数据的助力,以及近年来人工智能的发展,语音识别方面已经取得了质变的结果。

今天,对于中文的语音识别,市面上从事语音识别业务的公司基本上都可以做到准确率在90%以上。也就是说,我们拿着麦克风来讲话,普通话标准的情况下,语音识别的基本上完全可以识别我们在讲什么,而且,识别错误的概率已经很低了。目前,许多音视频字幕的制作,小型发布会的现场记录等,语音识别技术完全可以应用,并真正的产生价值。然而,所有的这些应用,都是有一定的错误冗余度的,而我们愿意接受使用这种程度的语音识别技术的前提是,我们可以容忍一定错误的存在。一个小型发布会的现场上,主持人字正腔圆,语音识别率可以达到98%以上;当嘉宾开始讲话时,由于方言、口音、平翘舌有误、语音重叠、含混不清、新词汇的出现,语音识别就会出现问题;当嘉宾开始使用复杂的逻辑思辨能力,科学深奥的复杂长句、跳脱的方式进行论证时,没有对语义的推测,语音识别的准确率也立刻下降。所以,发布会上,还是需要配备工作人员实时的进行检查、纠错和校正。也就是说语音识别技术还达不到人类的标准,还是需要人工转录员的校对。当然,这里我们还仅仅指的的是固定的普通话人群和近场环境,其他情况结果更堪忧。

很多人都有疑问,从去年开始,人工智能得到了前所未有的

转载请注明:http://www.0431gb208.com/sjszlff/43.html

  • 上一篇文章:
  • 下一篇文章: 没有了