出品
开源中国
文
Travis
CommonVoice是Mozilla的开源项目,基于MPL协议发行,到目前为止已经诞生了几年时间,它允许志愿者们为语音识别软件的数据库做出贡献,而这个数据库属于公共领域,所有人都可以将这些数据用于语音合成和识别软件。
今年4月,Nvidia通过向Mozilla投资万美元的方式参与了这项计划的合作。
近日,在双方和整个社区的共同努力下,CommonVoice数据集的最新版本正式公开了。它带来了多项值得注意的新内容。首先,该语料数据集现在有超过小时的众包语音数据。与之前的版本相比,最新版本带来了小时的全新音频数据。还增加了16种新语言,即巴萨语、斯洛伐克语、北库尔德语、保加利亚语、哈萨克语、巴什基尔语、加利西亚语、维吾尔语、亚美尼亚语、白俄罗斯语、乌尔都语、瓜拉尼语、塞尔维亚语、乌兹别克斯坦语、阿塞拜疆语和豪萨语。这使得数据集中的语言总数达到了76种。总的来说,该数据集现在有超过,个独特的声音,过去六个月里贡献者社区增长了25%。
Mozilla新发布的CommonVoice数据集的其他内容包括:
按总时长排列的前五的语言是英语(小时)、基尼亚卢旺达语(小时)、德语(小时)、加泰罗尼亚语(小时)和世界语(小时);
按百分比增加最多的语言是泰语(增长了20倍,从12小时增长到小时),卢干达语(增长了10倍,从8小时到80小时),世界语(增长了8倍多,从小时到小时),以及泰米尔语(增长了9倍多,从24小时到小时);
如果你有兴趣为CommonVoice数据集做出贡献,可以访问项目
转载请注明:http://www.0431gb208.com/sjszyzl/2303.html