ChatGPT正在拥有嘴和鼻,越

来源：语言识别时间：2024/11/1

越来越像人了

作为人造的智能，AI人工智能拥有着人类难以企及的强大智慧量和信息处理能力，而现在，人类正在赋予其更多的“感官”，让它越来越“像”人了。

就在最近，OpenAI宣布将为ChatGPT加上语音功能，相当于给人工智能加上了“嘴”，而此前OpenAI已经为ChatGPT加上了图片识别的“眼睛”，将在10月正式上线，面向付费的Plus和企业版用户。

不仅如此，最近已经有研究团队正在努力以AI模型为基础，让机器拥有比肩甚至超越人类的嗅觉。

人工智能拥有“视、听、嗅”这样的感官究竟有什么必要，今天笔者就和大家一同探究。

人工智能看得更仔细

“眼”应该是人工智能较早拥有的人类感官。

研究者从很早就开始让机器能够学会“看”，其原理也非常简单，就是用大量的数据进行“投喂”。通过标注区分每张照片、视频中的结构、模型、色彩等信息，由计算机形成对图片内容的数字信息概念，进而完成区分。也就有了“计算机视觉”。

（图源：小米）

现有的计算机视觉在日常生活中应用已经很多，尤其在大家的智能手机当中，在拍照时无论是人像模式的主体抠像、背景虚化，还是美颜相机等一众强大算法，都离不开计算机视觉。

这次ChatGPT加入的“眼睛”则更进一步，直接整合了另一家文生图大模型DALL·E，拥有图片搜索功能，类似谷歌Lens，只要上传照片，ChatGPT就可以发现照片中的问题，并且提供相应的回应。

（图源：OpenAI）

而在文生图部分，DALL·E相比同为AI画图应用的Midjourney，在语义理解、关键词处理等方面也都更加强大，尤其改善了很多大模型对提示词断章取义的问题，“刘德华为什么很少演反派”触发水军关键词的类似问题以后应该会少很多（笑）。

人工智能讲得更自然

相比于“看”，“听”对人工智能来说要更简单不少。

在很早之前，互联网公司们就已经开始积极布局“智能语音助手”了。现如今，诸如苹果Siri、小米小爱同学、百度小度等等都已经有了相对成熟的应用。

但传统的“智能语音助手”现在也只能做一些诸如开关灯、播报天气这样的简单应用，一些复杂的操作还需要人工介入或者依赖预设的自动化选项。

而这次ChatGPT加上语音功能则能够支持以5个“角色”视角来进行回答，相比传统语音助手，语气更接近真人，并且在ChatGPT庞大的语言模型支撑下，能够回答更长的问题或执行更复杂的操作。

（图源：