毕业论文
您现在的位置: 语言识别 >> 语言识别介绍 >> 正文 >> 正文

着眼用户需求,vivo致力于用AI实现

来源:语言识别 时间:2022/12/4

当前信息技术已经进入人机物融合、万物智能互联的阶段,人工智能作为引领新一轮科技革命和产业变革的重要战略性技术,成为各行业数字化重构的神兵利器。与我们生活息息相关的诸如智能家居、智能汽车、智慧手机等等终端设备的“智”化发展都离不开AI技术的支撑。

在移动终端设备中,人们日益攀升的通信、娱乐、办公、出行等体验优化需求,驱动着智能手机的不断迭代。如今“一部手机走天下”的愿景已经逐渐照进现实,而AI凭借着巨大的发展潜力,以及对行业多边应用的推动力,将成为用户体验提升的关键技术,一个新的创新感知时代已经来临。

聚焦AI创想的无限可能,国内手机大厂vivo基于用户体验需求以及对智能终端行业敏锐的感知,向大众展示了软硬兼具的实力与美好蓝图。

深耕AI,蓄力前行

自年起,vivo便开始组建AI全球研究院,凭借着“希望帮助所有消费者享受科技带来的美好生活”的初心,不断攻克技术壁垒、扩充团队规模,下沉技术深度的同时,也在探索并布局应用的多维度发展。

vivo高级副总裁施玉坚在vivo开发者大会上表示,“我们坚持用户导向,从用户的视角出发,穿着用户的鞋子在企业里奔跑,坚持设计驱动,通过设计驱动完成用户导向的落地,并通过不设上限的持续研发投入,拓展消费电子行业人文与科技的边界。”

当AI重新定义世界,vivo也在开拓边界。经过5年多的努力,今天的vivoAI全球研究院已经有超过名AI工程师,在算法、数据、算力方面建立了全面的技术能力,全方位赋能了vivo的核心业务,覆盖手机、互联网、营销等领域。

AI打造个便利

基于“AI打造优质体验”的技术驱动,vivo希望依托OriginOS能力,以用户使用手机的多元化场景为载体,致力于为用户打造“个便利”,让科技照亮美好未来。

截至目前,OriginOSAI已经实现了多个功能,涉及诸如娱乐时听歌识曲、AI字幕翻译、屏幕朗读,生活中提醒充电、取快递,拍照时AI感知引擎让颜色识别更准确、清晰出片,工作时拍摄电脑屏幕消除摩尔纹,出行时自动弹出乘车码通知等等使用场景,为用户提供无处不在的惊喜。

vivo不仅为普通用户提供便利,为特殊人群也打造了诸多便捷功能。例如,针对听障人士的日常沟通需求,vivo整合了核心AI技术,联合中国听力医学发展基金会发布了“声声有息”公益计划,推出“无障碍通话”“vivo听说”及“声音识别”等功能,为听障人士搭建沟通的桥梁,营造更友好的信息无障碍社会环境。

vivo坚持以用户为导向,持续发力技术创新,用有温度的科技,让每个人都能享受科技进步带来的快乐,用科技去照亮美好未来。

AI感知引擎:通过AI计算摄影技术让手机能够像专业摄影师一样理解世界,通过智能的白加黑减和白平衡算法,使得纯色场景能够做到精准还原。

琥珀扫描:运用文档图像处理和OCR文字识别技术,让手机化身为便携扫描仪,办公学习更加高效。

朗读屏幕:基于vivo自研的个性化语音合成系统,研发出的丰富多元的合成声音,解放双手双眼,为用户打造流畅舒适的阅读新体验。

翻译机:支持二十多个主流语种的互译,跨语言沟通不再有障碍,让用户生活学习随心自由。

Jovi输入法Pro:自研拼音、语音、手写三大输入法AI内核,和OS深度结合,为用户提供安全、高效的输入体验

Jovi语音助手:智能生活助理,用户通过可以通过与手机的语音指令交互,解放双手,一句话搞定各种复杂操作。

vivo手语识别虚拟人:既能流利地通过手语进行表达,还能快速识别手语,帮助听障人士与他人顺畅沟通。

……

强大技术原力,创造用户惊喜

便捷的服务、高效的体验往往需要强大的技术原力作为支撑。

图像是日常生活中AI最常用的场景之一,我们拍照首先要拍得清,vivoAI通过自主研发的文档图像处理引擎与OCR文字识别技术的核心算法,实现了囊括文档扫描、实况文本、表格识别、试卷去手写算式批改等在内的多重功能。

文档图像处理引擎:可以对文档进行自动裁剪矫正以及超清修复,帮助用户更便捷、更清晰的记录好文档。一方面通过优化检测、分割以及边缘线精修三个模块来共同提升检测框的精度,同时,通过叠加光流跟踪模块,进一步提升了检测框的稳定性。优化后的检测框做到了既准又稳,用户在拍摄时可以享受一拍即得。此外,通过叠加全局超清模块,不仅有效提升了文档的色彩表现力,还能让文字更加清晰和锐利,用户一键即可自动完成之前需要多次操作才能完成的任务。通过超清修复,近距离拍屏幕可以去除摩尔纹,开会拍PPT能去除人头遮挡。

OCR文字识别引擎:能够帮助用户智能识别图片中的文字,即便是褶皱弯曲的手写字也能做到准确快速的识别。在视觉模型的基础上叠加了语言模型进行融合识别,进一步提升了模糊、手写等低质量图像场景下的识别准确率。同时,由于算法都是运行在手机本地不需要传输网络,不仅使得体验不受网络稳定性影响,还更好的保障了用户的数据隐私安全。当想要将书稿文字快速录入笔记时,只需调起相机扫描就可以将文字实时上屏,不管是书稿还是手写稿都可以做到又快又准,高效提取。

把图像拍清之后,下一步就是要把图像拍好,因此vivo团队自年起便持续在AI计算摄影方面专注投入。今年,vivo携手蔡司基于AI计算摄影能力,从“智能白加黑减技术”和“智能白平衡技术”入手,还原极致色彩,让拍摄充满惊喜。

智能白加黑减技术:vivo在行业内首次解决了“白加黑减”场景下曝光不准确的问题。抛弃传统十八度中性灰曝光方法中的测光假设,通过对画面内所有区域进行观察取值,基于深度神经网络模型估计最优曝光参数。曝光准确率超过行业竞品20%。

智能白平衡技术:抛弃了传统白平衡算法中的“灰世界”假设,考虑到亚洲人色彩恒常性的视觉特点,以及拍摄场景,从地域、光源、场景等多个维度构建丰富的色彩数据集。再基于人工智能模型去实际学习人眼看到的色彩,从而获得更准确的白平衡参数。相对于行业竞品,色彩精准度提升13%。

除了图像处理之外,语音处理也是AI的另一个重要使用场景。vivo的AI语音技术包括语音合成技术以及语音识别技术,基于自研的语音合成系统,vivo持续地研发出了丰富多元的合成声音,实现了多音色、多风格以及多情感的合成技术。通过端到端建模、AI降噪以及场景化语言模型等方式,克服了口音、噪音和专业领域等导致的识别错误,极大提升了语音识别的准确性。

面对日益丰富的国际交流和文化碰撞,vivo通过机器翻译技术助力用户突破语言障碍。针对翻译的重点人群、高频场景、便捷入口均设计了产品方案,助力高效解决翻译需求。

此外,Jovi语音助手自推出以来,一直围绕着便利的技能、丰富的知识、贴心的闲聊三个方向不断提升。目前Jovi语音助手已经支持超过个场景垂类,超过种用户请求意图,很好地满足用户在快捷操作、信息获取、情感陪伴方面的需求。目前手机端日活已经超过万,每个月小v都会和用户产生18亿次对话,回答2亿个问题。

当然,AI带来的便利远不止这些,vivo多年来深耕于手机使用典型场景的普适性和通用性,在智能终端行业内牵头实现应用升级与迭代,反哺着行业创新发展,共同打造极致的用户体验。

坚持用户导向,科技照亮美好未来

在人文关怀方面,经过不懈的研发创新,vivo实现了手语到文本再到语音的流畅互译,推出了手机行业首个具备手语识别能力的虚拟人。目前的算法已经可以识别个手语词汇,准确率在80%以上,已经达到汉语四级的理解水平,同时在手语表达方面,目前覆盖了国家手语通用词典超过个词汇。AI手语虚拟人既能流利的通过手语进行表达,还能快速识别手语看懂手语,帮助听障人士更便捷地获取信息,更高效地与人沟通。

理念牵引,实干专注。发展多年,vivo始终深耕于科技行业,并向大众展示了一系列布局与探索:vivo影像战略发布,打赢了手机摄影之战;开启自研芯片之路,向世界展示了vivo敢于向技术深水区迈进的决心;坚持长期主义,重视核心科技研发,更是vivo长久、健康发展的“形象标签”。

畅想未来,vivo将AI技术作为又一个研发重点:一方面vivo将在计算摄影、文档扫描、语音技术、语义技术、机器翻译、计算加速平台、vivo开发者平台AI专区七大方向持续发力;另一方面vivo计划逐步开放这些领先的AI能力,携手行业伙伴合作共创,比肩为消费者打造极致的体验,更是展现了手机行业巨头的格局担当。在这条鲜有前人的道路上与开发者们同行,为5亿多全球vivo用户以及更多消费者提供方方面面、无处不在的惊喜与激动人心的体验,打造“个便利”。

走出方寸天地,拥抱行业变幻。如何满足用户体验,技术可以下沉到何种程度,手机产品如何在激烈的市场竞争中抢得关键先机?我们看到,vivo一一给出了最优解。正如施玉坚所说,“我们坚持从用户的真实需求出发,不断创新和优化产品、以人文理念思考解决方案,努力成为更强大、更值得信赖的平台。”

科技带来美好生活,未来的vivo将成就怎样的自身以及行业,让我们拭目以待。

转载请注明:http://www.0431gb208.com/sjszlfa/2595.html