着眼用户需求,vivo致力于用AI实现

来源：语言识别时间：2022/12/4

当前信息技术已经进入人机物融合、万物智能互联的阶段，人工智能作为引领新一轮科技革命和产业变革的重要战略性技术，成为各行业数字化重构的神兵利器。与我们生活息息相关的诸如智能家居、智能汽车、智慧手机等等终端设备的“智”化发展都离不开AI技术的支撑。

在移动终端设备中，人们日益攀升的通信、娱乐、办公、出行等体验优化需求，驱动着智能手机的不断迭代。如今“一部手机走天下”的愿景已经逐渐照进现实，而AI凭借着巨大的发展潜力，以及对行业多边应用的推动力，将成为用户体验提升的关键技术，一个新的创新感知时代已经来临。

聚焦AI创想的无限可能，国内手机大厂vivo基于用户体验需求以及对智能终端行业敏锐的感知，向大众展示了软硬兼具的实力与美好蓝图。

深耕AI，蓄力前行

自年起，vivo便开始组建AI全球研究院，凭借着“希望帮助所有消费者享受科技带来的美好生活”的初心，不断攻克技术壁垒、扩充团队规模，下沉技术深度的同时，也在探索并布局应用的多维度发展。

vivo高级副总裁施玉坚在vivo开发者大会上表示，“我们坚持用户导向，从用户的视角出发，穿着用户的鞋子在企业里奔跑，坚持设计驱动，通过设计驱动完成用户导向的落地，并通过不设上限的持续研发投入，拓展消费电子行业人文与科技的边界。”

当AI重新定义世界，vivo也在开拓边界。经过5年多的努力，今天的vivoAI全球研究院已经有超过名AI工程师，在算法、数据、算力方面建立了全面的技术能力，全方位赋能了vivo的核心业务，覆盖手机、互联网、营销等领域。

AI打造个便利

基于“AI打造优质体验”的技术驱动，vivo希望依托OriginOS能力，以用户使用手机的多元化场景为载体，致力于为用户打造“个便利”，让科技照亮美好未来。

截至目前，OriginOSAI已经实现了多个功能，涉及诸如娱乐时听歌识曲、AI字幕翻译、屏幕朗读，生活中提醒充电、取快递，拍照时AI感知引擎让颜色识别更准确、清晰出片，工作时拍摄电脑屏幕消除摩尔纹，出行时自动弹出乘车码通知等等使用场景，为用户提供无处不在的惊喜。

vivo不仅为普通用户提供便利，为特殊人群也打造了诸多便捷功能。例如，针对听障人士的日常沟通需求，vivo整合了核心AI技术，联合中国听力医学发展基金会发布了“声声有息”公益计划，推出“无障碍通话”“vivo听说”及“声音识别”等功能，为听障人士搭建沟通的桥梁，营造更友好的信息无障碍社会环境。

vivo坚持以用户为导向，持续发力技术创新，用有温度的科技，让每个人都能享受科技进步带来的快乐，用科技去照亮美好未来。

AI感知引擎：通过AI计算摄影技术让手机能够像专业摄影师一样理解世界，通过智能的白加黑减和白平衡算法，使得纯色场景能够做到精准还原。

琥珀扫描：运用文档图像处理和OCR文字识别技术，让手机化身为便携扫描仪，办公学习更加高效。

朗读屏幕：基于vivo自研的个性化语音合成系统，研发出的丰富多元的合成声音，解放双手双眼，为用户打造流畅舒适的阅读新体验。

翻译机：支持二十多个主流语种的互译，跨语言沟通不再有障碍，让用户生活学习随心自由。

Jovi输入法Pro：自研拼音、语音、手写三大输入法AI内核，和OS深度结合，为用户提供安全、高效的输入体验

Jovi语音助手：智能生活助理，用户通过可以通过与手机的语音指令交互，解放双手，一句话搞定各种复杂操作。

vivo手语识别虚拟人：既能流利地通过手语进行表达，还能快速识别手语，帮助听障人士与他人顺畅沟通。

……

强大技术原力，创造用户惊喜

便捷的服务、高效的体验往往需要强大的技术原力作为支撑。

图像是日常生活中AI最常用的场景之一，我们拍照首先要拍得清，vivoAI通过自主研发的文档图像处理引擎与OCR文字识别技术的核心算法，实现了囊括文档扫描、实况文本、表格识别、试卷去手写算式批改等在内的多重功能。

文档图像处理引擎：可以对文档进行自动裁剪矫正以及超清修复，帮助用户更便捷、更清晰的记录好文档。一方面通过优化检测、分割以及边缘线精修三个模块来共同提升检测框的精度，同时，通过叠加光流跟踪模块，进一步提升了检测框的稳定性。优化后的检测框做到了既准又稳，用户在拍摄时可以享受一拍即得。此外，通过叠加全局超清模块，不仅有效提升了文档的色彩表现力，还能让文字更加清晰和锐利，用户一键即可自动完成之前需要多次操作才能完成的任务。通过超清修复，近距离拍屏幕可以去除摩尔纹，开会拍PPT能去除人头遮挡。

OCR文字识别引擎：能够帮助用户智能识别图片中的文字，即便是褶皱弯曲的手写字也能做到准确快速的识别。在视觉模型的基础上叠加了语言模型进行融合识别，进一步提升了模糊、手写等低质量图像场景下的识别准确率。同时，由于算法都是运行在手机本地不需要传输网络，不仅使得体验不受网络稳定性影响，还更好的保障了用户的数据隐私安全。当想要将书稿文字快速录入笔记时，只需调起相机扫描就可以将文字实时上屏，不管是书稿还是手写稿都可以做到又快又准，高效提取。

把图像拍清之后，下一步就是要把图像拍好，因此vivo团队自年起便持续在AI计算摄影方面专注投入。今年，vivo携手蔡司基于AI计算摄影能力，从“智能白加黑减技术”和“智能白平衡技术”入手，还原极致色彩，让拍摄充满惊喜。

智能白加黑减技术：vivo在行业内首次解决了“白加黑减”场景下曝光不准确的问题。抛弃传统十八度中性灰曝光方法中的测光假设，通过对画面内所有区域进行观察取值，基于深度神经网络模型估计最优曝光参数。曝光准确率超过行业竞品20%。

智能白平衡技术：抛弃了传统白平衡算法中的“灰世界”假设，考虑到亚洲人色彩恒常性的视觉特点，以及拍摄场景，从地域、光源、场景等多个维度构建丰富的色彩数据集。再基于人工智能模型去实际学习人眼看到的色彩，从而获得更准确的白平衡参数。相对于行业竞品，色彩精准度提升13%。

除了图像处理之外，语音处理也是AI的另一个重要使用场景。vivo的AI语音技术包括语音合成技术以及语音识别技术，基于自研的语音合成系统，vivo持续地研发出了丰富多元的合成声音，实现了多音色、多风格以及多情感的合成技术。通过端到端建模、AI降噪以及场景化语言模型等方式，克服了口音、噪音和专业领域等导致的识别错误，极大提升了语音识别的准确性。

面对日益丰富的国际交流和文化碰撞，vivo通过机器翻译技术助力用户突破语言障碍。针对翻译的重点人群、高频场景、便捷入口均设计了产品方案，助力高效解决翻译需求。

此外，Jovi语音助手自推出以来，一直围绕着便利的技能、丰富的知识、贴心的闲聊三个方向不断提升。目前Jovi语音助手已经支持超过个场景垂类，超过种用户请求意图，很好地满足用户在快捷操作、信息获取、情感陪伴方面的需求。目前手机端日活已经超过万，每个月小v都会和用户产生18亿次对话，回答2亿个问题。

当然，AI带来的便利远不止这些，vivo多年来深耕于手机使用典型场景的普适性和通用性，在智能终端行业内牵头实现应用升级与迭代，反哺着行业创新发展，共同打造极致的用户体验。

坚持用户导向，科技照亮美好未来

在人文关怀方面，经过不懈的研发创新，vivo实现了手语到文本再到语音的流畅互译，推出了手机行业首个具备手语识别能力的虚拟人。目前的算法已经可以识别个手语词汇，准确率在80%以上，已经达到汉语四级的理解水平，同时在手语表达方面，目前覆盖了国家手语通用词典超过个词汇。AI手语虚拟人既能流利的通过手语进行表达，还能快速识别手语看懂手语，帮助听障人士更便捷地获取信息，更高效地与人沟通。

理念牵引，实干专注。发展多年，vivo始终深耕于科技行业，并向大众展示了一系列布局与探索：vivo影像战略发布，打赢了手机摄影之战；开启自研芯片之路，向世界展示了vivo敢于向技术深水区迈进的决心；坚持长期主义，重视核心科技研发，更是vivo长久、健康发展的“形象标签”。

畅想未来，vivo将AI技术作为又一个研发重点：一方面vivo将在计算摄影、文档扫描、语音技术、语义技术、机器翻译、计算加速平台、vivo开发者平台AI专区七大方向持续发力；另一方面vivo计划逐步开放这些领先的AI能力，携手行业伙伴合作共创，比肩为消费者打造极致的体验，更是展现了手机行业巨头的格局担当。在这条鲜有前人的道路上与开发者们同行，为5亿多全球vivo用户以及更多消费者提供方方面面、无处不在的惊喜与激动人心的体验，打造“个便利”。

走出方寸天地，拥抱行业变幻。如何满足用户体验，技术可以下沉到何种程度，手机产品如何在激烈的市场竞争中抢得关键先机？我们看到，vivo一一给出了最优解。正如施玉坚所说，“我们坚持从用户的真实需求出发，不断创新和优化产品、以人文理念思考解决方案，努力成为更强大、更值得信赖的平台。”

科技带来美好生活，未来的vivo将成就怎样的自身以及行业，让我们拭目以待。

转载请注明：http://www.0431gb208.com/sjszlfa/2595.html

上一篇文章：网易易盾技术获AIWIN大赛认可,在金融

下一篇文章：长虹电视创维电视TCL电视哪个质量好