这是专栏《AI初识境》的第3篇文章。所谓初识,就是对相关技术有基本了解,掌握了基本的使用方法。
这是本系列的最后一篇非技术文章,我们总结一下深度学习技术在图像领域的重要历史性节点,本来打算语音,自然语言处理一起的,文章太长以后再谈。
作者编辑
言有三
1前深度学习时代
从早期的全连接神经网络到卷积神经网络CNN,跨度超过半个世纪,我们在上一期文章中进行过回顾,大家感兴趣的可以回过头去看。
几个重要的节点是:
年:MP模型的提出。
~年:视觉机制的发现。
年:Neocognitron的提出,卷积神经网络的萌芽。
年:反向传播算法被用于神经网络的优化并开始流行,同期动量算法提出被用于加速SGD。
年:TDNN模型,卷积神经网络被用于语音识别。
年:Max-pooling被提出,此后成为卷积神经网络标准组件。
年:LSTM被提出,促进了语音,自然语言处理等领域等发展。
年:LeNet5和MNIST数据集被提出和整理,两者可以说各自是卷积神经网络和图像数据集的“HelloWorld”,总会被拿出来说一说。
所谓深度学习,是以人工神经网络为基本架构的特征学习方法,涵盖监督学习,无监督学习,半监督学习,增强学习等,模型结构以卷积神经网络为代表,它不仅被用于图像,也被用于语音,自然语言处理等各种领域。
2深度学习时代
以年为分水岭,下面尽量挑重点的,在学术界和工业界有重大意义,同时又广为人知的来说。
年Hinton等人在science期刊上发表了论文“Reducingthedimensionalityofdatawithneuralnetworks”,揭开了新的训练深层神经网络算法的序幕。利用无监督的RBM网络来进行预训练,进行图像的降维,取得比PCA更好的结果,通常这被认为是深度学习兴起的开篇。
年,NVIDIA推出CUDA,GPU被用于训练卷积神经网络,是当时的CPU的训练速度的四倍。到现在,GPU是研发强大算法必备的条件,这也是大公司屡屡取得突破而小公司只能亦步亦趋跟随的一个很重要的原因。NVIDIA的GeForce系列,搞深度学习的谁还没有呢?
~年,在图像MNIST数据集,语音TIMIT数据集以及一些垂直领域的小比赛比如TRECVID也取得了不错的进展,但是还算不上突破性的,所以也不怎么为人所知。
年,CIFAR10和CIFAR数据集被整理。由于MNIST是一个灰度图像数据集,而大部分现实的任务为彩色图像,所以AlexKrizhevsky等学者从TinyImage数据集中整理出了CIFAR10和CIFAR。与MNIST一样CIFAR10数据集也有张图像,不过图像为彩色。图像大小是32×32,分为10个类,每类张图。其中张用于训练,另外00用于测试。CIFAR则分为个类,每一类张图像。
这两个数据集与MNIST一样,在评测方法时非常常见。
年,ImageNet数据集被整理,并于次年开始每年举办一次比赛。ImageNet数据集总共有多万幅图片,涵盖2万多个类别,为计算机视觉领域做出了巨大的贡献,至今我们仍然使用着Imagenet来评估算法,以及预训练其他任务的模型。
年前后几年时间,属于融汇贯通各种技术,数据和装备,典型的蓄力阶段,辅以小数据集和若干比赛的突破。
年,CNN以0.56%的错误率赢得了IJCNN比赛并超过了人眼,这是一场交通标志的识别比赛,研究者开始对深度学习在自动驾驶中的应用前景展现出浓厚的兴趣,毕竟在上个世纪90年代无人车的研究就已经开始了。现在无人车是非常大的一个应用前景。
年,Glorot等人提出ReLU激活函数,有效地抑制了深层网络的梯度消失问题,现在最好的激活函数都是来自于ReLU家族,简单而有效。
年,经典书籍《大数据时代》出版,作者维克托迈尔舍恩伯格在书中指出大数据时代来了,我们应该放弃对因果关系的追求,而
转载请注明:http://www.0431gb208.com/sjszyzl/4434.html