AI改变千行万业,开发者如何投身AI语音

来源：语言识别时间：2024/9/17

北京哪里医院看白癜风好 https://wapjbk.39.net/yiyuanzaixian/bjzkbdfyy/

从图灵测试到AlphaGo击败围棋世界冠军，AI在近10年间再次进入新一轮的高速发展期。与以往不同的是，随着数字化的发展普及，AI技术开始进入千行万业，从技术界的热点宠儿，变成移动应用的常客。

AI在行业应用中较为普及的，是使用AI中自动构建分析模型的机器学习技术（MachineLearning，ML），用于人脸、文本等图像类识别，例如电商物流的智能分拣、智能安防监控、工业智能质检等。随着机器学习模型的发展强大，AI正在用于语音等更复杂的信息识别，并逐渐应用于智能家居语音控制、智能交互等场景。不过，快速发展的AI应用和机器学习模型，既是技术发展的焦点，也需要投入高成本、人力去开发，而聚焦自身业务场景的技术开发者更需要的，是可以轻松调用、通用的机器学习与AI应用技术。

HMSCoreMLKit机器学习服务，交付前沿AI应用体验

AI已经成为IT技术厂商需要重点打造的能力，例如在华为提供端、云开放能力服务的HMSCore中，重点为开发者打造了MLKit机器学习服务，覆盖了文本类、语音语言类、图像类和人脸人体类等各类AI场景和能力，涵盖了常用的基础AI应用能力和场景，例如海外旅游出行使用MLKit文本识别和翻译以获取路标、菜单，视频会议使用MLKit图像分割能切换虚拟会议背景。在文本识别、文本翻译、图像分割、人脸检测、手势识别、文本嵌入这些AI能力之外，MLKit还拥有更前沿的算法模型才得以实现的AI能力。

例如在HMSCoreMLKit人脸人体识别服务中，除了静态人脸识别，还提供快速捕捉动态人脸信息的活体检测能力。MLKit活体检测甚至已经做到不需要用户配合做动作，就可以判断是真实人脸，还是恶意人脸图片攻击。另外MLKit活体检测还可以将模板人像和人脸进行高精度比对，输出相似度值，进而判断两者是否为同一个人。

活体检测可在几秒钟内识别人脸

MLKit的活体检测采用全新的一个模型多个任务技术，联合华为“昇腾”推理库对AI模型的加速效果，量化后模型仅有0.2M大小，CPU推理时延低至0.01s；端到端同时检测人脸框和人脸关键68关键点，可以实时检测动作例如摇头，响应时延达到毫秒级别；在安全性方面可以有效防范各种类型打印攻击，视频攻击，面具攻击。

在实际应用中，例如对安全性和精准度要求更高的金融场景里，采用MLKit活体检测，比对用户身份证照片和人脸检测结果，可以判断用户信息真实性，实现快速安全的身份核验流程，让AI识别可以真正有效助力互联网远程开户、刷脸支付等金融业务的开展。

再例如用于文本、文档、身份证、银行卡等文本类信息识别中，HMSCoreMLKit文本识别汇聚了华为在OCR技术上的最新研究成果，支持任意角度的文本识别，能够对横竖排，弯曲文本精准识别的同时，还能对文本段落进行准确划分，对文本内容精确定位。

目前身份证识别是对精度、延时要求较高的OCR场景

另外在保证最高识别精度的同时，MLKit的文本识别在端侧已经支持11种文字检测，在云侧支持20多种文字，基本覆盖主流语种，能够服务全球用户。这种文本识别的广度，背后需要大量算法和研发工作去支撑。

对于更加抽象的语音数据的识别，由于增加了时间维度，使用机器学习识别也更加复杂。其中TTS（TextToSpeech文本到语音）是AI声音识别中重要的应用场景，也是AI识别发展的重要方向。现在，HMSCoreMLKit的TTS音色定制已经实现个性化的TTS，模拟定制多种真人音色。TTS语音要达到高度拟人、自然流畅（而不是早期AI语音的机器化和顿挫感），背后是华为技术团队采用深度神经网络技术对TTS模型训练、精细地调优，付出大量研发精力才得以实现。TTS音色定制的应用场景非常广泛，在新闻小说的阅读、智能硬件、地图导航、服务类应用中，开发者都可以集成TTS能力，为用户提供实时、可替换、多音调的语音播放，极大提升和创新应用的交互体验。

TTS音色定制的应用场景非常广泛

除了TTS音色定制，HMSCoreMLKit采用语音识别、文本翻译、语音合成等多项AI能力，推出了音色模拟的AI同传解决方案。具体实现过程是将现场演讲者声音实时识别并转换为文本内容，对文本内容进行翻译，最终通过语音合成技术输出翻译后的音频流。在这个过程中，HMSCore语音识别技术能够迅速将语音转换成文字，首字时延最低为ms；文本翻译技术则将文本以最快ms/字节文本的速率快速翻译。更具特色的是，通过AI音色定制，HMSCoreAI同声传译实现了用演讲者自己的音色进行同声传译，展现逼真同传效果。它还可支持跨语种个性化音色的快速定制，最快5句话即可极速定制个人喜好的音色，满足包括同声传译等不同场景不同用户的个性化诉求与合成体验。

HMSCoreMLKit同声传译APK界面

像活体检测、TTS音色定制、同声传译，这些都是AI应用技术发展中较为热门和重要的领域，而现在华为HMSCoreMLKit将这些需要大量算法模型支撑的AI能力开放出来，为开发者生态提供了及时和前沿的AI技术服务，赋能千行万业各类开发应用的AI智慧和创新体验，所有这些工作，也让华为HMSCore正在成为AI开发生态的重要主力军。

立即预约HMSCoreDiscovery直播，创造你的AI智能语音世界

为了做好开发者技术与服务，华为HMSCore提供了丰富和详实的开发文档、技术资料，在开发者中形成了良好的口碑。现在，华为HMSCore又在重磅打造一档针对开发者服务的技术解读系列直播栏目——HMSCoreDiscovery，每一期直播都会邀请行业大咖或者合作伙伴探讨热门技术、HMSCore场景解决方案与案例。开发者可以非常直观高效地去了解目前热门开发技术与HMSCore开发能力特性。直播通过与开发者的互动交流与“对话”，对HMSCore生态技术竞争力深度解读，最终帮助合作伙伴实现用户和流量的增长与发展共赢。

现在，最新一期的HMSCoreDiscovery直播第16期将在7月28日19:00正式开播，主题《与虎墩一起，玩转AI新“声”态》，就是聚焦于目前AI语音语言的热门应用领域，本次直播将重点分析讲解MLKit机器学习服务的语音语言类能力，如上文提到的TTS、文本翻译、同声传译这些前沿的机器学习场景和应用，进一步展示HMSCore在AI与机器学习领域赋能开发者的前沿技术。

虎墩小镖师

在直播中，MLKit同声传译能力将全新亮相，嘉宾将为开发者揭秘底层技术和设计，另外嘉宾也将为开发者讲解MLKitAI翻译能力升级后的功能，例如语种扩充情况和翻译播报的功能。

除了技术讲解，直播还邀请到了抖音网红IP“虎墩小镖师”，“虎墩小镖师”同时也是HMSCoreMLKit机器学习服务中TTS语音的合作伙伴，通过与抖音网红IP的破圈合作，HMSCoreMLKit希望将最热门和真实应用场景的智能声音提供给开发者使用。

通过直播的内容，开发者可以了解到AI语音识别原理、应用场景、技术调用等实操细节，还可以获得MLKit已经训练完成并开放的“虎墩小镖师”声音，去定制个性化的音色，应用于自己的业务场景中，为用户带来新鲜和具有创意的新体验。

当然，AI应用开发与API接入有更多细节实操的技术点，并非一场直播就可以全部掌握的。华为HMSCoreMLKit

转载请注明：http://www.0431gb208.com/sjsbszl/7598.html

上一篇文章：使用Bixby助手,可以通过语音控制三星

下一篇文章：没有了