毕业论文
您现在的位置: 语言识别 >> 语言识别发展 >> 正文 >> 正文

人类理解视频再进一步,新研究提出微型视频

来源:语言识别 时间:2023/1/3

大数据文摘专栏作品

作者:ChristopherDossman

编译:VICKY、Joey、云舟

呜啦啦啦啦啦啦啦大家好,拖更的AIScholarWeekly栏目又和大家见面啦!

AIScholarWeekly是AI领域的学术专栏,致力于为你带来最新潮、最全面、最深度的AI学术概览,一网打尽每周AI学术的前沿资讯。

每周更新,做AI科研,每周从这一篇开始就够啦!

本周关键词:视频理解、Chatbot、语音识别

本周最佳学术研究

微型视频网络:已知最快的视频网络

研究人员一直在努力真正理解视频,但视频的本质非常复杂。与静态图像不同,视频内容在本质上是动态的,处理起来很有难度。现有的视频理解解决方案都是计算密集型的,即便是在功能强大的GPU上,最快的算法在每个视频片段上运行的时间也要超过半秒。

为了解决这个问题,研究人员提议使用进化算法来自动设计网络,从而以较低的成本提供可比的性能。他们提出了一种有关视频学习架构的新想法,即微型视频网络(TinyVideoNetworks),来自动设计用于视频理解的高效模型。

微型视频网络,物如其名,它们所需的运行时间非常短,这在视频模型领域当中是前所未有的。微型视频网络拥有极具竞争力的性能,每个视频能在CPU上以低至37毫秒的速度运行,在标准GPU上则能低至10毫秒。

微型视频网络是学习高效视频网络的第一种方法。这种方法允许以更低的成本在视频架构中进行更多的探索。当规模扩大后,它们将与一些最先进的模型竞争,并且速度能提高数百倍,同时参数也将减少。

更值得注意的是,TVN在实现更高效、更少计算量的视频架构上具有很大潜力,这能提高许多实时应用程序的准确性。视频理解对于任何涉及视频数据的业务都至关重要,Facebook认为该技术许多用户应用程序都会有用处,比如增加用户的参与度。

原文:

转载请注明:http://www.0431gb208.com/sjszyzl/2876.html