IEEExATEC
IEEExATEC科技思享会是由专业技术学会IEEE与前沿科技探索社区ATEC联合主办的技术沙龙。邀请行业专家学者分享前沿探索和技术实践,助力数字化发展。
在社会数字化进程中,随着网络化、智能化服务的不断深入,伴随服务衍生出的各类风险不容忽视。本期分享会的主题是《网络欺诈的风险与对抗》。五位嘉宾将从不同的技术领域和观察视角,围绕网络欺诈场景下的风险及对抗技术展开分享。
以下是沈超教授的演讲
出品人演讲嘉宾
沈超
西安交通大学教授、网络空间安全学院副院长
ATEC科技精英赛高级咨询委员会专家
《网络欺诈风险识别与防御的全局视角》
非常感谢IEEE和ATEC联合举办的科技思享会。大家好,我是西安交通大学的沈超。我也非常荣幸能够在这里跟大家分享我们对一些问题的看法。这个主题是《网络欺诈风险识别与防御的全局视角》。
我国已将人工智能上升到国家战略层面,在工业医疗领域都有着广泛的应用和市场前景。同时,金融领域已经成为人工智能技术成熟落地应用的行业之一。可以看到的是,年我国智慧金融市场的规模已经超过了亿人民币大关。
与此同时,在互联网和金融场景之下,人工智能技术面临着巨大的安全威胁和挑战。例如AI人脸支付被欺骗,AI伪造数据取钱等等。根据统计,从年到年,全球利用智能伪造等技术进行网络欺诈导致的金融损失,累计已经超过00亿美元。其中可以观察到利用语音、视频等信息伪造技术进行网络欺诈的案件频发。例如,年伪造语音诈骗总额高达了万美元。深度伪造技术以假乱真,引发了很多的争议,而视频合成技术也被不法分子利用,进行网络诈骗。
这样现象背后都是AI技术在发展的同时,带来的隐私和风险,尤其在互联网及金融场景下的应用更为明显。因此,今天想跟大家也分享一下,从我的观点来看,互联网场景或者金融场景之下,AI技术面临的安全风险和挑战。
我们以这个AI的这个流程,尤其是机器学习方法的实际应用流程来分享。在这里我们很粗略地将它分了四个阶段,包括了模型训练、模型推断、模型部署和模型应用。
模型训练阶段
在模型训练阶段的风险问题是,模型很容易遭受到后门攻击。这是模型安全风险中一个重要问题。由于缺乏时间、数据或设备等等,导致预训练需要进行微调,而很多厂家都会使用公开预训练模型。
我们需要注意到的是,共享的模型被很容易被植入后门,因为模型是来自于第三方机构的,类似于BigML、openML等等。有很多技术爱好者或技术人员在这些网站上放出开源模型,大部分从业者会从上面下载相关模型,在这些模型的基础上进行二次开发,再应用到自己的场景当中去。而我们知道,这些模型很容易被别人植入后门。在模型的sharing和reusing的过程之中,就会导致用户被动地把有后门的模型用在系统里。现在有一些后门植入方法,即便对模型进行重新的全局训练,也会存在相关的后门点。而且,现在很多模型参数很大,有些语言模型或更大厂商的模型,有上千亿、甚至上万亿个参数,全局训练需要花费相当大的人力和资源。具体来说,对于这种公开的模型,其实后门植入是比较简单的。但是,由于很少有人会放出来一些后门的样本数据,所以测试数据集非常少。并且应用场景很广泛。导致现在去寻找这样的后门是非常困难的。
我们团队曾做过一个研究,就是我们下载了这个领域当中最popular的前个模型,这些模型下载量都很大,有的一个月的下载量能上好几十万。在这样的模型之上,我们利用自己开发的工具进行后门检测,发现大量的公开模型存在很多后门点,或者说有很多容易被攻击者利用的后门场景。因此,这种后门的植入手段引发的风险是很大的。而且,后门检测的限制条件很多,很多后门的植入方法是很明显的,很容易看出来他对原始图片是有修改的。
我们团队自己在做相关的研究,很多比较前沿的后门的植入趋势是让后门变得更加自然,更加不突兀、即像素级的后门修改,这样的后门很难检测。植入后门很简单,我可以在上亿个神经元之中放置后门的选择点,但是我想把它找出来却是一件很难的事。触发器在哪里、什么样的、什么效果,你并不知道,而且测试集验证集也很少,很难去触发一些触发器的特征或者一些标注,使得后门的检测面临着很大的挑战。但是,这种模型的应用点是非常多的。这样的威胁如果存在于模型之中,而且没有被你发现的话,可能会带来相当严重的后果。
其实,后门植入过程也比较简单,首先是后门的配置。比如我们在“5”的图片上增加一个框体,我们将这样的一个框体作为它的后门的触发点。我们在训练的时候,把“5”和框体配在一起,再给它标签给成“4”。在做神经网络训练的时候,这样一个样本会被神经网络训练成“4”,那做识别的时候,如果模型看到这样一个“5”,模型就触发给出“4”的结果。这就完成了一个后门输入的过程。所以,我们可以看到后门植入过程是非常简单的(你要做点坏事情是很容易的)。随着后门植入相关攻击领域的发展,有一些后门植入的新的概念和方法出来。我们的团队的研究方向,是让后门植入更加隐蔽。
以人脸识别为例,人脸识别的过程是从原始输入到人脸检测、到区域识别、到特征提取,再把人脸特征拿出来之后再存入到特征库里面,就完成了人脸训练集数据的写入。他在特征在这个识别的时候,我们拿一张新的照片出来,把这个人脸抠出来,然后提取他这个特征,再和特征库中的特征进行匹配,如果合适的话,就完成人脸识别。我们可以
转载请注明:http://www.0431gb208.com/sjslczl/4999.html