最近追《披荆斩棘的哥哥》实在太上头,特别是凭实力火出圈的大湾区靓仔哥哥团!一首又一首经典粤语歌,带来满满回忆杀。甚至连节目下聊天嗑瓜子,都笑点十足,不少网友纷纷表示get到了粤语的魅力~
作为中国方言的一种,粤语又称广东话、广府话,当地人俗称“白话”。在国际影响力和语言的韵味方面,粤语的地位绝对是重量级的老大。
据统计,全球将近有1.2亿人口使用粤语。作为香港、澳门的官方语言,粤语也是新西兰的第二大语言,美国和加拿大的第三大语言,澳大利亚的第四大语言。年联合国教科文组织将粤语定义为语言的一种。
随着AI技术的成熟,应用场景不断扩展,智能语音设备无处不在,具有强大号召力的粤语也拥有广阔的市场,能够支持粤语的智能语音产品需求越来越多。
例如,在商务会谈中,支持粤语语音识别的智能会议系统,可以实现和粤语客户无障碍交谈,不再担心因为听不懂粤语而失去合作机会;在智能客服领域,粤语语音识别功能的加入能精准识别粤语用户提出的问题,提高“港普”识别的准确率,不至于因此闹“笑话”。
虽然市场是广阔的,但想要实现精准的粤语识别效果,面临的技术难度也不小。
首当其冲的就是粤语发音的多样性。相对于普通话的四声调,粤语拥有完整的九韵六调,能够组合出的总音节数比普通话还要多,因此能够让粤语听起来长短音错落,层次感更加分明,但也由于没有具体的发音教学,加大了粤语的学习难度。
▲粤语的九声六调
其次是粤语常用字复杂性。作为一门古老的语言,粤语最早可以溯源到先秦时代。在其深厚的历史底蕴渲染下,粤语完美保留了古汉语特征,现在很多词汇仍沿用了旧时的说法。举几个简单的例子:粤语里的“食”代表普通话的“吃”,“饮”就是喝水的“喝”,“行”则是走;还有很多我们看不懂的字,其中咁”、“搵”、“哋”、“嘅”等字更是难记。
标贝粤语语音识别数据解决方案
对于AI语音产品来说,想要提高粤语识别的准确性,就需要大量的优质粤语语音数据作为模型训练支撑。因此,标贝科技精心打造高质量的粤语语音数据集,包括朗读式、对话式和命令词等类型,覆盖智能客服、机器翻译、语音输入、虚拟助手等场景。
成人粤语方言数据库
数据库特点:广式粤语朗读数据库,覆盖人数多
录音环境:安静室内
数据时长:h
录音人数:人
录音语料:日常口语句子
文件格式:WAV
语音参数:16kHz/16bits
录音设备:手机
适用领域:可应用于智能音箱、语音助手、智能穿戴等语音识别场景。
成人粤语方言交谈数据库
数据库特点:交谈类语音,多人自由交谈
录音环境:安静室内
数据时长:h
录音人数:人
录音语料:日常口语句子
文件格式:WAV
语音参数:16kHz/16bits
录音设备:手机
适用领域:可应用于智能客服、语音质检、机器翻译、语音审核等语音识别场景。
成人粤语车载语音数据库
数据库特点:分7个环境类别,按照速度区分为怠速、低速、低速+噪音、高速公路、高速公路+噪音、城市道路、城市道路+噪音
录音环境:轿车内
数据时长:h
录音人数:人
录音语料:涉及36个类别,包括找音乐、城市导航、百科搜索、车机系统控制、智能家居控制等问答类问题
文件格式:WAV
语音参数:16kHz/16bits
录音设备:智能后视镜
适用领域:可应用于智能音箱、语音助手、车载设备、语音问答等语音识别场景。
粤语作为广府文化载体,除了是一种语言,它更像是一种文化,陪伴一代又一代人成长,带来很多精彩回忆。标贝科技将用技术手段,将这种文化继续传承并推广下去。
欢迎对以上数据集感兴趣的行业伙伴联系我们~
邮箱:business
data-baker.转载请注明:http://www.0431gb208.com/sjszlff/5195.html