毕业论文
您现在的位置: 语言识别 >> 语言识别前景 >> 正文 >> 正文

AI改变千行万业,开发者如何投身AI语音

来源:语言识别 时间:2024/9/17
北京哪里医院看白癜风好 https://wapjbk.39.net/yiyuanzaixian/bjzkbdfyy/

从图灵测试到AlphaGo击败围棋世界冠军,AI在近10年间再次进入新一轮的高速发展期。与以往不同的是,随着数字化的发展普及,AI技术开始进入千行万业,从技术界的热点宠儿,变成移动应用的常客。

AI在行业应用中较为普及的,是使用AI中自动构建分析模型的机器学习技术(MachineLearning,ML),用于人脸、文本等图像类识别,例如电商物流的智能分拣、智能安防监控、工业智能质检等。随着机器学习模型的发展强大,AI正在用于语音等更复杂的信息识别,并逐渐应用于智能家居语音控制、智能交互等场景。不过,快速发展的AI应用和机器学习模型,既是技术发展的焦点,也需要投入高成本、人力去开发,而聚焦自身业务场景的技术开发者更需要的,是可以轻松调用、通用的机器学习与AI应用技术。

HMSCoreMLKit机器学习服务,交付前沿AI应用体验

AI已经成为IT技术厂商需要重点打造的能力,例如在华为提供端、云开放能力服务的HMSCore中,重点为开发者打造了MLKit机器学习服务,覆盖了文本类、语音语言类、图像类和人脸人体类等各类AI场景和能力,涵盖了常用的基础AI应用能力和场景,例如海外旅游出行使用MLKit文本识别和翻译以获取路标、菜单,视频会议使用MLKit图像分割能切换虚拟会议背景。在文本识别、文本翻译、图像分割、人脸检测、手势识别、文本嵌入这些AI能力之外,MLKit还拥有更前沿的算法模型才得以实现的AI能力。

例如在HMSCoreMLKit人脸人体识别服务中,除了静态人脸识别,还提供快速捕捉动态人脸信息的活体检测能力。MLKit活体检测甚至已经做到不需要用户配合做动作,就可以判断是真实人脸,还是恶意人脸图片攻击。另外MLKit活体检测还可以将模板人像和人脸进行高精度比对,输出相似度值,进而判断两者是否为同一个人。

活体检测可在几秒钟内识别人脸

MLKit的活体检测采用全新的一个模型多个任务技术,联合华为“昇腾”推理库对AI模型的加速效果,量化后模型仅有0.2M大小,CPU推理时延低至0.01s;端到端同时检测人脸框和人脸关键68关键点,可以实时检测动作例如摇头,响应时延达到毫秒级别;在安全性方面可以有效防范各种类型打印攻击,视频攻击,面具攻击。

在实际应用中,例如对安全性和精准度要求更高的金融场景里,采用MLKit活体检测,比对用户身份证照片和人脸检测结果,可以判断用户信息真实性,实现快速安全的身份核验流程,让AI识别可以真正有效助力互联网远程开户、刷脸支付等金融业务的开展。

再例如用于文本、文档、身份证、银行卡等文本类信息识别中,HMSCoreMLKit文本识别汇聚了华为在OCR技术上的最新研究成果,支持任意角度的文本识别,能够对横竖排,弯曲文本精准识别的同时,还能对文本段落进行准确划分,对文本内容精确定位。

目前身份证识别是对精度、延时要求较高的OCR场景

另外在保证最高识别精度的同时,MLKit的文本识别在端侧已经支持11种文字检测,在云侧支持20多种文字,基本覆盖主流语种,能够服务全球用户。这种文本识别的广度,背后需要大量算法和研发工作去支撑。

对于更加抽象的语音数据的识别,由于增加了时间维度,使用机器学习识别也更加复杂。其中TTS(TextToSpeech文本到语音)是AI声音识别中重要的应用场景,也是AI识别发展的重要方向。现在,HMSCoreMLKit的TTS音色定制已经实现个性化的TTS,模拟定制多种真人音色。TTS语音要达到高度拟人、自然流畅(而不是早期AI语音的机器化和顿挫感),背后是华为技术团队采用深度神经网络技术对TTS模型训练、精细地调优,付出大量研发精力才得以实现。TTS音色定制的应用场景非常广泛,在新闻小说的阅读、智能硬件、地图导航、服务类应用中,开发者都可以集成TTS能力,为用户提供实时、可替换、多音调的语音播放,极大提升和创新应用的交互体验。

TTS音色定制的应用场景非常广泛

除了TTS音色定制,HMSCoreMLKit采用语音识别、文本翻译、语音合成等多项AI能力,推出了音色模拟的AI同传解决方案。具体实现过程是将现场演讲者声音实时识别并转换为文本内容,对文本内容进行翻译,最终通过语音合成技术输出翻译后的音频流。在这个过程中,HMSCore语音识别技术能够迅速将语音转换成文字,首字时延最低为ms;文本翻译技术则将文本以最快ms/字节文本的速率快速翻译。更具特色的是,通过AI音色定制,HMSCoreAI同声传译实现了用演讲者自己的音色进行同声传译,展现逼真同传效果。它还可支持跨语种个性化音色的快速定制,最快5句话即可极速定制个人喜好的音色,满足包括同声传译等不同场景不同用户的个性化诉求与合成体验。

HMSCoreMLKit同声传译APK界面

像活体检测、TTS音色定制、同声传译,这些都是AI应用技术发展中较为热门和重要的领域,而现在华为HMSCoreMLKit将这些需要大量算法模型支撑的AI能力开放出来,为开发者生态提供了及时和前沿的AI技术服务,赋能千行万业各类开发应用的AI智慧和创新体验,所有这些工作,也让华为HMSCore正在成为AI开发生态的重要主力军。

立即预约HMSCoreDiscovery直播,创造你的AI智能语音世界

为了做好开发者技术与服务,华为HMSCore提供了丰富和详实的开发文档、技术资料,在开发者中形成了良好的口碑。现在,华为HMSCore又在重磅打造一档针对开发者服务的技术解读系列直播栏目——HMSCoreDiscovery,每一期直播都会邀请行业大咖或者合作伙伴探讨热门技术、HMSCore场景解决方案与案例。开发者可以非常直观高效地去了解目前热门开发技术与HMSCore开发能力特性。直播通过与开发者的互动交流与“对话”,对HMSCore生态技术竞争力深度解读,最终帮助合作伙伴实现用户和流量的增长与发展共赢。

现在,最新一期的HMSCoreDiscovery直播第16期将在7月28日19:00正式开播,主题《与虎墩一起,玩转AI新“声”态》,就是聚焦于目前AI语音语言的热门应用领域,本次直播将重点分析讲解MLKit机器学习服务的语音语言类能力,如上文提到的TTS、文本翻译、同声传译这些前沿的机器学习场景和应用,进一步展示HMSCore在AI与机器学习领域赋能开发者的前沿技术。

虎墩小镖师

在直播中,MLKit同声传译能力将全新亮相,嘉宾将为开发者揭秘底层技术和设计,另外嘉宾也将为开发者讲解MLKitAI翻译能力升级后的功能,例如语种扩充情况和翻译播报的功能。

除了技术讲解,直播还邀请到了抖音网红IP“虎墩小镖师”,“虎墩小镖师”同时也是HMSCoreMLKit机器学习服务中TTS语音的合作伙伴,通过与抖音网红IP的破圈合作,HMSCoreMLKit希望将最热门和真实应用场景的智能声音提供给开发者使用。

通过直播的内容,开发者可以了解到AI语音识别原理、应用场景、技术调用等实操细节,还可以获得MLKit已经训练完成并开放的“虎墩小镖师”声音,去定制个性化的音色,应用于自己的业务场景中,为用户带来新鲜和具有创意的新体验。

当然,AI应用开发与API接入有更多细节实操的技术点,并非一场直播就可以全部掌握的。华为HMSCoreMLKit

转载请注明:http://www.0431gb208.com/sjsbszl/7598.html

  • 上一篇文章:
  • 下一篇文章: 没有了