LeCun看了都说好MetaAI一次搞

来源：语言识别时间：2024/10/22

编辑：好困袁榭

人工智能科学伊始，让机器「像人一样学习」始终是所有从业者的目标。人的智能基于多种感官与语言的通用处理能力，一直有研究者致力让机器做到此效果。

人的智识是「多模态学习」的总和，也就是可以跨越分类界限，理解和移用不同来源或形式的讯息与经验。

好比方，一个人看过自然频道的虎类纪录片，再听到他人描述「白额大猫呼啸生风」时，能据此语言描述结合之前的观影结果，知道别人在描述猛虎，不会贸然跑去滑铲。

让人工智能做到同样的多模态学习效果，是高挑战而高回报的工作。

单独处理声音、图像、文字数据的单个算法再如何亮眼，若不能在不同模态的数据间移用，终究比不上一个算法，单一基础框架能通用于图像识别、音频模态探测、自然语言处理的各种数据。

而MetaAI研究组的data2vec算法就做到了。研究组在自己的博客中称，为了让机器学习更接近人智，有必要克服现有的自监督学习算法对不同模态数据的隔阂。

论文链接：