越来越像人了
作为人造的智能,AI人工智能拥有着人类难以企及的强大智慧量和信息处理能力,而现在,人类正在赋予其更多的“感官”,让它越来越“像”人了。
就在最近,OpenAI宣布将为ChatGPT加上语音功能,相当于给人工智能加上了“嘴”,而此前OpenAI已经为ChatGPT加上了图片识别的“眼睛”,将在10月正式上线,面向付费的Plus和企业版用户。
不仅如此,最近已经有研究团队正在努力以AI模型为基础,让机器拥有比肩甚至超越人类的嗅觉。
人工智能拥有“视、听、嗅”这样的感官究竟有什么必要,今天笔者就和大家一同探究。
人工智能看得更仔细“眼”应该是人工智能较早拥有的人类感官。
研究者从很早就开始让机器能够学会“看”,其原理也非常简单,就是用大量的数据进行“投喂”。通过标注区分每张照片、视频中的结构、模型、色彩等信息,由计算机形成对图片内容的数字信息概念,进而完成区分。也就有了“计算机视觉”。
(图源:小米)
现有的计算机视觉在日常生活中应用已经很多,尤其在大家的智能手机当中,在拍照时无论是人像模式的主体抠像、背景虚化,还是美颜相机等一众强大算法,都离不开计算机视觉。
这次ChatGPT加入的“眼睛”则更进一步,直接整合了另一家文生图大模型DALL·E,拥有图片搜索功能,类似谷歌Lens,只要上传照片,ChatGPT就可以发现照片中的问题,并且提供相应的回应。
(图源:OpenAI)
而在文生图部分,DALL·E相比同为AI画图应用的Midjourney,在语义理解、关键词处理等方面也都更加强大,尤其改善了很多大模型对提示词断章取义的问题,“刘德华为什么很少演反派”触发水军关键词的类似问题以后应该会少很多(笑)。
人工智能讲得更自然相比于“看”,“听”对人工智能来说要更简单不少。
在很早之前,互联网公司们就已经开始积极布局“智能语音助手”了。现如今,诸如苹果Siri、小米小爱同学、百度小度等等都已经有了相对成熟的应用。
但传统的“智能语音助手”现在也只能做一些诸如开关灯、播报天气这样的简单应用,一些复杂的操作还需要人工介入或者依赖预设的自动化选项。
而这次ChatGPT加上语音功能则能够支持以5个“角色”视角来进行回答,相比传统语音助手,语气更接近真人,并且在ChatGPT庞大的语言模型支撑下,能够回答更长的问题或执行更复杂的操作。
(图源:
转载请注明:http://www.0431gb208.com/sjsbszl/7892.html