商汤科技徐持衡AI的核心在于服务好每一个

来源：语言识别时间：2024/12/4

北京最好治疗白癜风医院在哪里 http://baidianfeng.39.net/index.html
虎嗅注：徐持衡是商汤科技的联合创始人、技术支持总监、号员工。商汤科技在成立短短4年的时间里，已经获得了数轮大额投融资。其中投资方包括IDG、高通、阿里巴巴、淡马锡、苏宁等知名公司机构。徐持衡本人是一位90后学霸，高二被清华大学破格签约录取，年加入香港中文大学多媒体实验室实习。年，商汤科技创始人汤晓鸥教授带领团队开发出深度学习模型DeepID，人脸识别准确率达到98.52%，超越人眼97.53%的识别准确度。计算机人脸识别准确率首次超越人眼，突破工业化红线的契机已经到来。在11月24日的虎嗅FM创新节上，徐持衡为大家带来了一场题为《A.I.让数据创造价值》的演讲，着重以AI从业者的身份，为现场观众讲述了AI的过去、现在和未来。尤其是最终AI的作用，徐持衡认为：AI的核心在于服务好每一个人。以下内容由虎嗅整理自现场速记：大家好。今天在科大讯飞后面讲，压力非常大，因为科大讯飞是一家在人工智能做得非常棒的公司，尤其是在语音和自然语言处理方面。相比之下，商汤科技是专注于计算机视觉领域。但有一点很巧，假如我们把生活中的语音加上文字加上图片加上视频，这就是我们日常生活中最经常接触到的数据形式。我今天主要想分享的是《A.I.让数据创造价值》。我们可以先来看下历史，回顾到更早的石器时代，铁器时代，到现代的蒸汽时代，电力时代，再到我们当下的信息时代，我们发现每一个时代，它都是以当下最前沿的技术来命名的。所以我们期待下一个时代能够以A.I.来命名，因为A.I.能够给人类社会带来极大的突破和创新。参考蒸汽时代，解决的是动力的来源问题，人力被替换为了机器的动力，那么电力时代其实解决的是动力的传输和使用，它能够让灯泡发光，能够用来做各种的事情。而我们现在所在的信息时代，最大的特点是大量的信息数据积累，而且信息数据的传输能力也在不断升级。所以对于A.I.时代，我们要做的、最重要的一件事情就是要让数据产生价值。要继续聊这个问题之前，我们可以再倒回来看看科技进步到底给我们带来了什么？科技进步跟艺术创作它们之间关联是什么样？在我看来，科技的进步带来的是艺术创作变得更快了！相信在座的各位都看过斯坦·李老先生的漫威宇宙系列电影，这是一个充满超级英雄、科幻的主题。今时今日，去看3D电影是再正常不过的事情，一部3D电影可能有几万帧的3D特效构成，但是这个事情放在几百年前，绝对是不可想象的。那个时代的“3D大作”，是像罗丹《地狱之门》这样的作品，而罗丹为了这个作品足足花了37年时间。相比之下，最新漫威宇宙中的《毒液》，从开拍到上映只花了不到一年的时间，这两者都是对我们想象力最好的体现、最好的艺术形式的表达，都值得我们去品味和欣赏。不仅创作更容易了，艺术创作载体也变的更加丰富了，参与的人群更广了。例如摄影技术一开始出现的时候，大家一度认为它将给绘画市场带来巨大的打击，肖像画的需求可能就没有那么旺盛了。但是后来，我们发现数码相机虽然取代了胶卷，但行业在短暂的“衰落”之后，反而参与其中的人更多了。不仅大家每一个人都会开始拿起手机拍照，诞生了更多的摄影师，在图片拍摄之后还需要处理、也就是PS，所以也需要更多的图片设计师。反过来看，实际上是更多的人参与到了艺术创作当中。还有一个很有意思的技术——3D打印，现在越来越多的中学生用3D打印技术进行创作，这明显对还在大学念雕塑系的同学们来说不公平，他们正在面临来自中学生的巨大竞争，所以现在可以考虑一下是不是该转计算机系了。说一个题外话，大家总是在探讨说人工智能是不是会颠覆行业，是不是会替代掉多少的劳动力，让多少人失业。但就过去几百年的经验来看，那些被技术改变、被技术颠覆的行业，最终都获得了更大的动力、更好的活力。所以我们相信人工智能接下来要颠覆的事情，未来一定也会给各个行业带来更强的动力，更多的职业，甚至更大的繁荣。当下是一个软件快速发展，反过来推动硬件发展的时代。以苹果为例，一年顶多推出不到10款iOS设备，但AppleStore一年的新应用数量就超过70万个。在经历了几十年快速发展后。摩尔定律已经不再有效了，芯片制程从十纳米到七纳米已经举步维艰，晶体管的密度不再那么容易得到提升。但在这个趋势下，我们可以看到NVIDIA的GPU的出货量开始变高了。是因为打游戏的人变多了吗？不是，最重要的原因是NVIDIA把GPU的计算能力开放给了软件挖掘，让软件通过迭代最终实现效益的最大化。这个过程也将推动人工智能技术的发展，以及更广泛的技术应用和落地。最终，大量的软件应用将会改变我们的生活。而事实上，软件的意义就是让人与信息产生关联，除了满足我们的好奇心之外，它们也在改变我们的生活、融入我们的生活，最终改变我们身边所有的事情的发展。最简单的，现在衣食住行都有APP，人们通过APP能够在一个数字化的世界里没有障碍地互相触达。以共享出行为例，现在我们可以通过APP直接约到一辆车，而且这辆车有可能是路面任意一辆闲置的运营车辆，你还可以和司机直接约定上车地点，并且实时看到车所处的位置。这极大化地降低了人找车和车找人这两个过程的复杂性。在用户、司机看来，对象有可能是车，也有可能是人，但他们实际上他们分享出来的是数据。背后还有各种算法，能够把路面上闲置的车辆跟你的需求做一个关联和匹配，最后引导着两边形成商业价值。所以我认为现在推动社会向前发展的就是万物数据化，因为未来的万事万物都必将变成数据。在这个过程中，有很多数据需要通过计算机视觉的方法来消化和理解。举个例子，我们看的很多视频数据，大多数的消费者还是人。比如我们特别喜欢看运动类的视频，这些运动类的视频，我们能够在里头看到他的竞技，看到它的竞争。但是对于计算机来讲，它只是帧的画面，每一帧画面每一个像素RGB到底是什么样的值，所以我们需要教会计算机去理解去看到这里面发生的事情，这里面的主体是什么？理解这里面结构化的信息。最终，我发现，我们要做的事情，非常像小时候赵忠祥老师给我们解说《动物世界》一般，在《动物世界》里面有什么动物，然后发生了什么事情，有什么场景。如果没有这些解说，相信大多数人会看不明白。而我们现在在教计算机去做的，就是让计算机去理解视频中它的主体是什么，发生了什么事情，这些都赋予了视频新的意义。到今天为止，我们教计算机去理解的视频，包括电视剧，包括运动视频，也包括更广泛的视频书数据和内容，这些视频数据内容可能对大家来讲没有那么吸引，但它们内在都有大量的价值，也就是说有有效信息可以去挖掘。这是顺应了刚刚讲到的万物数据一个趋势，也是人工智能能够得到快速的普及和应用的原因之一。我们一直讲数据是人工智能非常重要的一环，但在我看来，其实人工智能贯穿了数据的理解、认知、采集到最后决策的整个链条。所以在万物数据化之上，实际就是万物智能化。到今天为止，我们的物理所有权形态已经发生了很大的转变。以前一个东西在我手上，我可以用它做任何的事情，但到今天我们发现路边停了大量的单车，我可能没有办法骑走它，但我可以通过APP扫码解锁这辆车。这个过程中，现实世界的物理权限和虚拟世界的软件权限管理，实际上已经结合到了一起。我们再来看手机，你现在随便拿起别人的新手机，你拿起的同时实际上手机也在“看”你，分辨你是不是它的主人，如果你不是真正的主人，那你就只能看到锁屏上的时间信息。只有它认出来你是它的主人，你才能操控所有的功能。这背后的技术基础，就包括了商汤科技的人脸识别技术。未来很多涉及到权限的场景，都可以通过人脸识别来改变，因为人脸更像是软件中的钥匙，它是多对多的凭证，而且你还会随时把它带在身边。所以大家未来完全不需要在身上带更多的钥匙，因为你自己就是最好的“钥匙”。既然是多对多的“钥匙”，那么钥匙权限的管理也将变得尤为重要，但我相信这一个概念将会在更广泛的事物中不断涌现，最终让我们和生活中万物的交互变得更加自然。讲完了人与机器之间的交互，我们来讲一讲机器与环境之间的交互。刚刚百度的同事也讲到了我们无人驾驶技术的发展，这几年无人驾驶技术发展得非常的快。但我们目前还没有完全解决信息传递的问题。假如车辆本身知道马路上的所有信息，例如前后车如何做决策，即将是要刹车、减速这种程度的信息，我相信自动驾驶的技术迭代将会变得更快，无人驾驶的机会也将很快来到。但我们现有的实际路面情况是真的很复杂，所以我们必须先通过计算机视觉技术，尽可能地去挖掘里面有价值的信息。我们给自动驾驶车装上一堆RGB摄像头和毫米波雷达、激光雷达，我们可以识别路牌、路灯、识别车道线、识别可行驶区域，前车行人等等，甚至我们在用数据去预测人和车的轨迹，预测他们会不会穿越横线，会不会变道。这些尝试，将会成为未来实现无人驾驶过程中关键性的决策组成。我在今天之前，的确没有来过Park这个场地，说老实话这个场地跟我想象的不太一样，还好我跟着导航走到了正确的位置。但现实中很多用户真的是看不懂导航中地图指示，所以前不久我们联合OPPO、高德地图推出了AR步行导航。你可以让吉祥物小欧出现在街道实景上，这种无缝的融合，最终目的是引导你，指引你前往目的地，把导航过程中的决策和指示变得更加直接。这种以前不敢想象的事情，都已经实现了，如果我们继续把大量的数据和大量的新技术结合在一起，完全可以构建出一个更加智能化，更加智慧的一个生活空间。就商汤科技自己而言，就是希望我们的技术能力会赋予每一个参与者，让他们体会到技术更新、进步带来的体验升级。我在这再展示一个例子，有一个女士把包丢了。因为是在公共区域，我们就先来寻找她自己的足迹，把她在监控中的片段都找出来，然后我们再去比对包的特征。我们可以看到某一个时刻之后，她的包就不见了，再经过简单查询我们可以发现，她实际上是自己一个马虎把包忘了。但包现在的确已经不见了，所以我们把包变成跟踪的对象，很明显能看到一位男士坐在了包旁边，然后被他拎走了。虽然我们不知道这位男士的身份，但是凭借他身体的姿态和形态，再加上人脸的特征，我们就可以继续在这个区域去寻找他的轨迹，找到之后就可以物归原主了。这个过程，在原来是完全依靠人力的，也就是把所有摄像头的数据调出来几个人一起查看，而现在实际上只需要几台电脑一小会儿就能完成。这其中人力物力的消耗，被极大化地降低了。这项技术还容易开发出其他一些用途，例如特别

转载请注明：http://www.0431gb208.com/sjslczl/7978.html

上一篇文章：语音搜索系统只是把问题录音过来,然后结合

下一篇文章：没有了