青暮编辑
岑峰
人工智能技术从开始到真实产生应用的突破是以时间为代价的。需要无数的科学家带着甘做冷板凳的决心潜心钻研,一坐就是十年、二十年。
而技术一旦突破,便有了改变世界的力量。
从年Dartmouth会议上第一次提出人工智能的概念到年深度学习概念首次问世,神经网络从诞生到真正意义上拥有了深度,经过了超50年的时间。
随着大数据和算力发展的助推,深度学习爆发出巨大的威力,一轮又一轮的研究热点在各项领域开花结果,全社会都热血澎湃地张望未来。
年,人类尝试复刻人脑聆听和处理人类语音的方式,DNN(深度神经网络)在语音识别方面出现革命性的突破。年,CNN(卷积神经网络)在图像识别上大获成功。至此,人工智能多项技术到达真正意义上“可用”的阶段。
从技术转向产业,年前后同样是个值得书写的年份:移动互联网时代来到发展的沸腾临界点,BAT格局已然成形,而后被无数资本追捧的AI四小龙,也都在年后相继成立。
而彼时,殷保才和吴嘉嘉还是两名就读人工智能相关专业的学生,在代码、公式和论文交错的实验室里,痴迷地探索着计算机视觉领域里一切可能的方向。
从校招入职,到如今成为科大讯飞AI研究院计算机视觉方向(CV)的领跑者,吴嘉嘉正带领着团队攻克图文识别领域内喜马拉雅山式的挑战——篇章级公式识别,并不断将技术扩展到更加复杂和深入的应用场景;殷保才牵头视觉领域的最前瞻技术探索,从视觉交互、遥感图像到多模态感知、3D感知,用自由的眼光看更远的未来。
因名字中的“才”和“嘉”,在科大讯飞研究院里,大家都津津乐道地称他们为“才”子“嘉”人。和他们一起的,是科大讯飞超百人规模的计算机视觉团队的研究员们,带领着科大讯飞计算机视觉多项技术保持着国际领先水平。
后来被问到,为什么在那个计算机视觉领域风起云涌的时代选择加入一家以人工智能“语音”技术而闻名的公司时,他们都给出了相似的答案:“发挥自己的作用,让科大讯飞的计算机视觉技术也达到国际领先水平。”
如今,从国际医学影像领域权威评测LUNA上刷新世界纪录、在计算机视觉顶级会议CVPR和文档分析与识别顶级会议ICDAR上的多项评测任务中获得冠军、到刷新目前公认自动驾驶领域内最具权威性的图像语义分割评测集Cityscaps全部两项子任务的世界纪录,无一不在向世界宣示着,科大讯飞早已不是那个只做“语音”的公司了。
而这一切的背后,是这群对技术无比热爱之人的初心坚守。
1AI研究院计算机视觉的“才”子“嘉”人因为从小就是典型的理科生,殷保才自觉对文字表达不感兴趣,思维比较发散,难以集中注意力,连小说都读不进去。在他的大脑里,似乎只有数学符号和图像是可理解的,“算是一种空间型思维吧”。
就连在职期间继续攻读中科大的博士学位也是院长费了好大力气劝说后才去的,因为“就是不想写论文”。
同样,在与吴嘉嘉交流的过程中,我们也发现了类似的特点。
只要我们说出文本行识别、公式识别这些词,他立马会连珠炮弹般把整个技术链路里里外外介绍一遍,尽管我们当时问的是“这项技术背后有什么故事?”。多次提醒后,他依然沉浸在分享这些细节中。这些精微的技术细节,仿佛才是他眼中的事件记忆。
“不想写论文”、“不会讲故事”的他们痴迷于技术本身。在他们的思维里,故事不是被抹杀了,而是在一个抽象空间里,将所有的累积汇聚成一体。在思维成形之前,空间里只有无逻辑关联的碎片。一旦关键的碎片找到后,思维成形,便是“灵感爆发”时刻。
殷保才
这种空间型思维,让他们与计算机视觉结缘。
尽管都是空间型思维,但这对“才”子“嘉”人也有着不同的思维习惯。
殷保才偏好直觉,比如在带领团队参加LUNA比赛时,创新性地采用了3D框架,“几乎是一瞬间就想到了。”
吴嘉嘉则偏好逻辑,比如在解释技术的时候,每一次都像是在发送逻辑缜密的文档,还是当场生成的。
吴嘉嘉
接下来,就让我们深入科大讯飞这对计算机视觉领域“才”子“嘉”人的更多亲身经历,一探科大讯飞计算机视觉技术之究竟。
2探索与投入或许是语音的标签太过耀眼,科大讯飞在计算机视觉方向上的发展并不为外界所熟知。
年以前,科大讯飞的技术储备还是集中在与语音相关的技术方向上,从语音合成、语音评测到语音识别技术,科大讯飞在全球语音技术领域内已是全面领先地位。
而年,几位探索计算机视觉领域内图文识别(OCR)技术方向的研究员们已默默的开始了漫长的征程。从探索、沉淀、到全面爆发,一等就是十年。
“OCR一开始在研究院是一个很小的方向。当时很多人不理解,大家觉得OCR就是识别字符,落地的场景就是类似街边的街景字符的识别。回头来看,随着信息化时代的到来,OCR应用的场景非常广泛,带来的社会价值是巨大的。”吴嘉嘉说道。
比如在教育领域,差不多也就在、年左右,我们非常清楚地看到了人工智能在教育里应用的潜力,从智能阅卷、评分测评、到现在“因材施教”的个性化教育,OCR技术几乎是所有教育应用的入口。
“OCR技术一定要结合实际场景的需求,定义OCR技术问题也必须来自于实际场景的重大刚需问题,只做技术是不行的,这也是人工智能落地里科大讯飞探索出来的方法论。”
年,吴嘉嘉开始攻关文本行识别技术,在此之前,吴嘉嘉已率先尝试用深度学习的CNN技术来做孤立字识别,识别精度相对基线版本大幅提升了30%,并在讯飞输入法上得到了很好的落地。
但后来他发现,孤立字识别技术根本不适应文本行识别问题,文本行识别的一个常规思路是首先对字符进行切分,然后进行单字符识别。由于涉及手写字体,很多人写字会习惯性地连笔,这就让切分变得困难了。
也许,图像识别的答案要在计算机视觉之外去寻找。
吴嘉嘉工作照
技术的创新常源于灵感的瞬间爆发。
在投入语音识别技术的时候,很少有人能想到语音识别技术的逻辑和方式能够被同为模式识别分支的字符识别所借鉴。
语音技术深厚的积累给团队带来了无尽的宝藏,在文本行识别的研究中,他们找到了融合的契机——语音识别要将连续的波形转化出分离的字符,而波形和手写字类似,也是无法拆分的。
这几乎是完美的答案。
AI研究院的小伙伴们快速完成了语音识别到计算机视觉之间的算法框架迁移和借鉴,将语音识别中的HMM模型框架引入到文本行识别,精度大幅提升。
吴嘉嘉开始形成自己的方法论——他山之石,可以攻玉。
技术的进步常比想象中走得更快,而在发展之前,则是默默耕耘与长期投入。
在OCR生根发芽之际,科大讯飞又开启了计算机视觉领域其他技术方向探索的征程,从人脸识别、医学影像到辅助驾驶、虚拟形象。
科大讯飞对于新方向的探索多是从参与国际顶尖比赛开始的,探索技术的可达性。
年,人工智能+医疗概念逐步兴起,作为医疗影像领域最具代表性、最受
转载请注明:http://www.0431gb208.com/sjszlff/7842.html