毕业论文
您现在的位置: 语言识别 >> 语言识别优势 >> 正文 >> 正文

未来的风口一语音操作系统

来源:语言识别 时间:2024/12/2
北京治疗白癜风怎么治 https://wapjbk.39.net/yiyuanfengcai/tsyl_bjzkbdfyy/ob4a5e5/

商业创新的思维大致包含三种类型:

一是寻找潜在的市场需求,创造满足其需求的产品和服务。这是最常见、也是应用最广泛的创新思维,例如近年来流行的母婴经济、宠物经济、老年经济等,都是这一思维下的产物。

二是应用最新的科学技术,打造全新的产品。比如说近年来流行的VR、AI、语音识别、电动汽车、自动驾驶等。

这一类创新的价值一般局限于对技术的简单应用,所以很多时候你会发现,最开始做某类技术产品的公司未必会成为市场最后的赢家。

比如说,最早做图形操作系统的是施乐和苹果,但是最后的赢家却是微软;最早推出触摸屏手机的公司是IBM、摩托罗拉、索尼爱立信、HTC等,但是最后的赢家却是苹果和谷歌。

之所以会出现这样的局面,是因为还有第三类创新——也是难度最高的一类,就是整合大量现有的软、硬件技术,进行最优化的排列组合,做出革命性的创新产品,再凭借碾压式的用户体验收割市场,让行业的竞争迎来大结局。

从目前来看,智能电视、语音识别、互联网汽车等项目都有这样的机会。只不过,要想把握住这些机会,仅仅借鉴过去的成功案例肯定是行不通的。就好比现在的智能电视产品,只是把手机端的创新生硬的移植过去,根本不考虑电视和手机屏幕尺寸不同、使用场景不同的区别,自然无法复制出当初智能手机那样巨大的商业成功。

当然,作者写这些肯定不是来马后炮的,马后炮也不是作者的风格。

那么,我们就以语音技术为例,展示一下如何通过第三种类型的创新思维,把这项技术的市场价值从不到两百亿美元提升到超过两万亿。

语音技术可以说是历史上最让人失望的技术风口之一。它曾经不止一次被市场吹捧过,并被赋予超过万亿美元的市场价值。比如说在上世纪八九十年代的时候,人们就曾经把语音技术视为实现人工智能突破口。在那时的设想中,如果计算机能够识别人们说的每一句话,人类就可以与机器之间进行智慧交流,对机器下达各种指令,进而实现人工智能。但是,当时受限于语音识别精度的问题,这一构想并没能取得成功。

但是,到了几十年后的今天,语音识别的准确率已经不存在应用上的障碍,可是相关技术的市场价值还是远远没有达到市场当初预期的高度。

为什么会出现这样的情况?是语音技术的价值被过度吹捧了?还是创新的方向没有找对?如果答案是后者,那么语音技术正确的创新方法应该是什么?

下面我们就使用商业创新的通用思维流程:寻找问题→理清思路→提出方法→分析可行性来详细阐述这一问题。

1、寻找问题

语音技术之所以应用价值不高,主要有两方面的原因:

一是不够智能。比如说语音助手,宣传的时候展示的是人与机器之间进行智慧交流的场景。但是到了用户手里,智能化的程度远远达不到让人满意的标准。

二是应用的场景太少。只能实现诸如天气、闹钟、计时、听歌、听书等一些最简单的应用,对于用户稍微复杂一点的需求都无法满足。

正是由于这两点主要原因,近年来发布的语音技术产品——不管是嵌入手机端的智能语音助手还是智能音箱,都只是火了一阵子就熄火了。

2、理清思路

要想最大化语音技术的市场价值,自然就是要从解决上述两点问题入手——也就是增加它的智能化程度,并赋予其更多的应用和功能。

那么,我们能够让语音技术变得更智能吗?可以,但是事倍功半。因为目前的技术条件下,提高语音技术智能程度的方法无非就是不断扩张后台数据库,让机器能够匹配识别更多的语言内容。

但是人类的语言足够复杂,交流方法又灵活多变。机器想要与人类进行智慧交流,不仅要能够理解字面层次的意思,还要考虑语调的变化、上下文语境、说话时候的场景与背景等因素,再加上人类的语言也是不断更新变化的。所以,真正做起来就会发现这其实是一项极其、极其、极其复杂的工作,用事倍功半都远远不足以形容它的难度。更何况,只要计算机最底层的技术还是0和1,就不可能做到真正的智能——哪怕背后的数据库再庞大也不行。

那么,既然第一条路很难走通,能不能利用现有的技术条件,大幅扩宽语音技术的应用场景呢?

关于这一点,很容易让人想到之前已经取得成功的两款产品:PC和智能手机。它们曾经都打着智能的旗号作为卖点,也都无法实现真正意义上的智能,但是却依然获得了巨大的成功——其背后的原因,靠的就是功能和应用的爆发。

值得注意的是,PC和手机平台功能和应用的爆发并不是仅仅依靠微软和苹果两家公司就能够实现的。它们只是开发了最基础的操作系统,以此为平台,让无数应用开发商的软件和APP都能在上面运行,进而实现了功能和应用的最大化。

通过这一案例,我们或许可以找到目前语音技术失败的原因:一是在智慧交流上钻牛角尖,导致了创新成果的难产;二是不够开放,没有连接自身技术与外部应用间的“接口”。

你可能会说,语音技术和PC、智能手机的情况完全不一样,因为它没有图形界面,根本不适合去做所谓的“操作”系统。但正是因为它没有图形界面、不需要动手去操作,所以语音类型的应用才会有独属于自己的优势场景,才能在竞争中站稳脚跟。

就像智能手机刚出来的时候,它的很多应用其实就是PC端移植过去的。PC端的使用体验固然更好,但是手机的使用比PC更加方便,这就让手机端应用有了蓬勃发展的理由。

所以,我们今天要做的事情,并不是凭空去创造新的需求,而是要去打造一个新的平台,让原本需要打开PC和手机,动手操作一番才能做到的事情,说一句话就能解决——这就是目前语音技术最大的应用价值所在。

3、提出方法

下面我们来讨论具体的实现方法。首先自然就是要打造语音版的操作系统。由于不依赖图形界面,语音操作系统在设计思路上与PC和智能手机会有很大不同。简单来说,它需要具备以下几点要素:

1、精准的语音识别。这是实现语音操作的基础,目前的语音识别技术在精确度上已经能够满足这一要求。

2、能够嵌入到各类硬件平台中。如电视、手机、PC、智能音箱、汽车等——这也很好解决。值得注意的是,当嵌入到PC、手机、电视等具有显示屏的平台上时,是可以出现应用端的操作界面的。

3、解决“选择”问题。PC和手机端的用户想要执行某项应用时,会直接在图形界面上找到并打开对应的应用程序。但是语音操作系统没有图形界面。那么,在用户说出自己的需求以后,系统必须能够精确找到用户想要的那一个。否则,整个操作流程就会变得像打客服电话一样,让人在一个个选项、子选项中不断做出机械式的选择,这种糟糕的使用体验只会导致创新的失败。关于这一点也很好解决,就是改变人机交流的方式。

在用户说出需求以后,可以有以下两种选择:

(1)主动加上想要使用的应用名称。在手机端,无论是购物、社交、查资料、点外卖、订酒店,还是购买机票、火车票、门票等需求都有特定的APP来执行。到了语音操作系统上,用户只需要在说出需求以后加上这些APP的名字,就可以直接完成想要的操作。值得一提的是,对于支付类型的需求,执行前需要有用户确认的环节。

(2)加上目的类的需求词汇。当用户不知道对应应用程序的名称时,可以在语句后面加上目的类的需求词汇来解决。例如说出菜名以后,加上“外卖”,系统就会执行外卖类的应用;加上“菜谱”,系统就会执行教学类的应用;加上“购买食材”,系统就会执行超市代购类的应用。

4、与其它应用间的接口。对于语音操作系统来说,天气、日历、闹钟、计时之类的应用只相当于Windows和IOS系统中自带的那些基础应用。在此之外,如果不能打造开放的平台接口,吸引千千万万家应用开发商的加入,整个系统就会变得像是Windows不能安装软件、IOS不能安装APP一样无聊且失败。

所以,打造与其它应用间的接口无疑是语音操作系统最为关键、也是最大的技术难点。这样的接口可以围绕以下几点思路进行设计:

(1)解决匹配规则的问题。在语音操作系统中,用户说出需求以后,系统先要将语音转化为文字,再根据文字的内容与后台中海量的应用程序进行匹配,最后选择最合适的应用为用户提供想要的功能或者服务。这样的匹配环节就是连接系统平台与外部应用之间的“接口”。

要想打造好这样的“接口”,首先必须制定合理的匹配规则,确保所有的匹配行为都在规则的引导下来进行,否则整个系统就会乱作一团;第二要建立庞大的匹配数据库,引导应用开发商在“上架”前,将应用提供的服务和功能与数据库中的词条进行匹配,以此实现从用户到系统再到应用之间的有序对接。

(2)解决优先级问题。当大量的应用“上架”到语音系统以后,经常会遇到用户的一个需求对应多个符合要求应用程序的情况。可是系统能够呈现给用户的结果只允许有一个,所以必须解决优先级的问题。关于优先级的设置,可以参考以下两点:

一是根据其它平台上的历史使用习惯来设置优先级。在语音操作系统中,大多数应用都会是PC和手机平台应用的移植版,所以可以根据用户在这些平台上的使用习惯来进行优先级的设置。例如,将在PC或智能手机平台上注册过账号的应用设置为高优先级,将注册过账号且经常使用的应用设置为最高优先级等。

二是收取广告费。对于没有历史记录作参考的情况,只要是符合要求的应用,都可以通过收取广告费来决定优先级的选择,这也是语音操作系统的重要盈利渠道之一。

(3)跨平台的操作。由于语音操作系统可以植入到PC、手机、电视、汽车、智能音箱等多个平台中,自然就会产生跨平台的操作需求。例如,使用智能音箱给手机端的朋友打电话、发邮件;在电视端浏览办公室电脑里储存的文件或视频;在开车时命令智能电视录屏自己无法及时观看的电视节目等等。

为了实现这些便利的跨平台操作,首先,植入到各个平台的语音操作系统需要用一个共同的账号联系起来,用户只需要登录自己的语音账号就可以对所有关联的设备进行操作;第二,各个平台的语音系统需要有一个共同的通讯录,用于实现各类工作和社交操作;三是在硬件层面上,要支持语音远程唤醒的功能,用以实现跨平台间的各项操作。

(4)在特定范围内消除语音识别偏差。在开放的语言环境下,一句话可能对应很多种理解的可能性,这是导致语音识别存在一定程度误差的重要原因。这样的误差一是会导致识别结果的偏差甚至识别失败(尤其是包含专业术语的情况),二是会导致识别速度的降低,这些都会影响到用户的使用体验。

但是到了特定的应用环境里,每一个应用涉及到的语言词条都是有限的,就好比购物类的应用中,词条都会与购物有关;金融类的应用中,词条和专业术语都会被限定在金融题材的范围里。所以就可以根据应用涉及的题材,为相关的语句和词条设置识别优先级,从而消除语音识别偏差的问题,这是进一步提升用户使用语音操作系统体验的重要方法。

5、支付功能。提供支付功能并对每笔交易订单收取抽成(类似于苹果税)是语音操作系统获取营收的主要途径。声纹识别技术可以解决这一问题。不过目前的声纹识别技术在可靠性还是差了一些,相关风险可以通过限制语音支付的金额来解决。至于超过限制金额的支付需求,可以在其它平台上,如手机端进行二次确认。

6、云计算。语音操作系统中,一切的操作、运算、数据长存储都依赖后台服务器来进行,所以必须要有云计算技术的支持。而且,云计算的增值服务也是语音操作系统获取营收的重要途径之一。

4、分析可行性

分析一项商业创新的可行性主要看三方面:市场需求、盈利前景和战略价值。其中,广泛的市场需求是基础条件;在此基础上,如果还能拥有明确的盈利前景,就已经具备了不错的投资价值;如果还能进一步拥有战略上的价值,那么该项目在资本市场上的估值就会成倍提高。

而语音操作系统就属于同时具备以上三方面元素的超级创新项目:

一、市场需求方面。语音操作系统主要针对两类场景:一是不方便动手的场景,如手机不在身边、不想开电脑、开车的时候等。二是动口比动手方便的场景,比如说用户想要通过手机实现某项应用,首先需要拿出手机、再滑动手机找到该APP,打开APP、再通过一些列的操作流程才能完成指令。但是同样的操作,使用语音操作系统可能一句话就能解决,这就给生活带来了极大的便利,进而吸引人们使用语音操作系统去实现很多过去需要经历相对繁琐流程的操作。

二、盈利前景方面,语音操作系统不仅拥有明确的盈利途径,而且不会像很多项目那样一旦开始盈利就会破坏用户体验,并导致用户的流失。

三,战略意义方面。语音操作系统的战略价值及其巨大,主要呈现在以下方面:

1、唯一的全场景操作系统。语音操作系统不仅可以植入到各类屏幕设备中(如PC、手机和电视),也可以植入到各类无屏幕设备中(如智能音箱、汽车和家电)。各个平台的系统将通过一个共同的账号联系起来。这就意味着,语音操作系统将真正做到使用场景的全覆盖,不会局限于特定的环境、特定的时间、特定的设备,这是其它任何操作系统都不具备的优势。

2、开启未来智能家居、智能汽车时代的钥匙。人与机器对话一直都是人类脑海中关于智慧生活的标准答案。现在的智能家电虽然也号称“智能”,但其实都是手机控制。但是有了语音操作系统以后,只需要将特定的模块植入到家电中,就可以实现人与电器之间的智慧交流。这种人与机器之间直接对话的操作模式所带来的使用体验对于开启新的智能家居时代意义重大。

至于智能汽车,现在还没有对应的概念产品。但是有了语音操作系统之后,只要再将汽车连接互联网,就能够实现很多过去无法想象的智慧功能。关于这一点,可以以后专门开个独立话题来谈。

3、新的大统一账号。语音操作系统绑定的不是特定的设备,而是一个能够关联各个平台的大统一账号。在未来,这样的账号会像手机号、社交通讯软件账号那样成为全民皆拥有的账号。它不仅能够将PC、手机、电视、智能音箱、汽车、智能家电等各个平台串联起来,而且用户与系统之间通过账号来绑定的特性意味着系统内所有应用程序的账号都需要与系统账号进行关联。这样的账号战略价值有多重要,资本市场上是有案例的,不需要我专门进行描述。

好了,语音操作系统就说到这里,后面计划写一写后疫情时代的风口和机遇。

转载请注明:http://www.0431gb208.com/sjszjzl/7946.html