中华网数码

设为书签Ctrl+D将本页面保存为书签,全面了解最新资讯,方便快捷。
业 界/ 互联网/ 行 业/ 通 信/ 数 码/ 手 机/ 平 板/ 笔记本/ 相 机 培训 学校 课程
当前位置:滚动新闻>

从不确定性分析视角守护人工智能安全: 创新方法与突破性应用

从不确定性分析视角守护人工智能安全: 创新方法与突破性应用
2026-01-29 15:24:11 来源:今日热点网

在人工智能(AI)技术快速发展并深度融入社会各领域的今天,人工智能系统的安全问题日益凸显。从人脸识别支付到政务服务平台,从云端计算到搜索引擎,人工智能系统在带来便利的同时,也面临着被攻击、被欺骗、被操控的风险。如何有效识别和防范这些安全威胁,成为人工智能技术安全落地的关键。

中山大学研究团队(以下简称“团队”)多年来致力于从不确定性分析这一崭新视角出发,系统性地揭示和缓解人工智能系统的安全风险,提出了一系列开创性的研究成果,并推动了这些成果在实际产品中的广泛应用,已服务于数十亿用户。

图1 唐迪副教授(左三)团队成员合照

1 主要研究成果及创新点

人工智能工具已深度参与人类的社会生产生活,但一些问题也随之而来。为了解决人工智能系统安全风险分析中辨别恶意输入、挖掘模型行为、确定关键参数这 3个科学问题,围绕人工智能系统在部署和训练阶段的实际安全风险,团队提出了针对输入多样、输出多变、参数各异 3 种人工智能系统固有不确定性挑战的分析方法。

1.1 输入不确定性对比度量提供恶意输入辨别新方法

人工智能系统的输入具有高度多样性,这使防御者难以穷举所有可能的正常输入样式,进而难以找到有效依据辨别恶意输入。针对这一输入不确定性挑战,团队发现,正常输入与恶意输入在不确定性上存在较大差异,通过对比输入不确定性的度量结果,可以有效辨别恶意输入。

在部署阶段,团队对人工智能人脸识别系统展开研究。对于人工智能人脸识别系统而言,攻击者能够在远短于人类完成动作的时间(约 0.2 s)内合成包含相应动作的伪造图像或视频,从而轻易绕过检测。团队根据真实人脸的三维几何结构与丰富的皮肤纹理,首创了利用反射光辨别真假人脸的屏幕闪烁人脸活体检测方案 Face Flashing,通过控制屏幕快速投射多彩光源,并实时捕获人脸反射光,提取其中的不确定性度量值,以区分真实与伪造人脸。

Face Flashing 具有可证明的安全保证:一是来自真实人脸的反射光难以伪造;二是攻击者可利用时间短。实验表明,在仅配备 60 Hz 屏幕与摄像头的普通手机上,攻击可利用时间仅为 1/3600 s,若想完成基于实时光照的人脸三维反射模拟,攻击者需依赖刷新率达 3600 Hz的高端硬件和高性能光线追踪设备。由此可见,这一技术路径在理论与实践两个层面显著提升了人工智能人脸识别系统的安全性。

在人工智能系统训练过程中,攻击者可通过污染训练数据集向模型中植入后门,从而在部署阶段操控模型输出。团队首次揭示了后门输入与正常输入在模型嵌入向量上的不确定性差异,并据此提出 SCAn 后门输入检测方法。具体而言,在统计特征上,后门输入通常映射为集中分布的嵌入向量(具有较低不确定性),而正常输入则对应相对分散的嵌入向量(具有较高不确定性),且二者在不确定性低的维度上也存在显著差异。

团队通过检测嵌入向量的不确定性分布偏差,实现对后门输入的高效识别。理论论证表明,当攻击者污染比例不超过 50%,且检测集包含 50 个以上后门样本时,SCAn 能以大于 90% 的概率检测到后门输入。进一步的验证实验表明,在误报率为 0% 的情况下,SCAn 的检出率可高达 99.5%,显著优于现有方法。

1.2 输出边界启发式探索开辟模型行为挖掘新路径

人工智能系统在部署时面临着恶意样本攻击的威胁,此类攻击往往依赖于对目标模型行为的准确刻画。然而,对人工智能驱动的搜索引擎系统而言,相似的搜索关键词可能产生差异显著的结果排名,因此传统观点认为攻击者难以获得较准确的模型行为刻画,对搜索引擎所发动的恶意样本攻击成功率较低。

然而,这种安全风险可能被低估了。团队发现,在搜索引擎输出排序中不同条目在排名上的不确定性存在显著差异:相似关键词下,部分条目排名波动较大,而另一些条目排名变化较小。基于这个发现,团队提出了 Order-disorder 攻击方法:通过引入启发式搜索算法,高效定位能引发高不确定性输出的关键词,进而挖掘搜索引擎在输出边界附近的行为,实现对目标模型的精确刻画,以获得行为高度相似的替代模型。团队还为替代模型训练设计了不确定性双生损失项,促使替代模型能逼近其在排名不确定性上的分布特征。

实验表明,Order-disorder 攻击方法所生成的恶意样本,能以大于90% 的概率将原始排名在 100 以外的指定条目提升到目标搜索引擎输出的前 10 名中,远超现有的恶意样本攻击方法在相同情况下所能达到的概率(小于 10%)。

在后门检测研究中,传统观点普遍认为逆向后门触发器算法能够有效识别后门。然而,当触发器特性未知时,其安全保证并不明确。针对此现状,团队提出了名为 Gradient Shaping 的后门隐藏方法,通过降低后门被触发的概率,进而绕过逆向后门触发器检测。

团队发现,逆向检测有效的根源在于传统后门触发器具有低输出不确定性,这使得逆向后门触发器算法仅需搜寻到众多可触发后门的输入中的任何一个便可触发后门,进而检测出后门的存在。团队据此设计了一种增加触发器输出不确定性的扰动插入方法。通过向训练数据中启发式地插入扰动数据,迫使模型在面对与触发器相近的输入时产生显著输出差异,进而减小后门被相近输入触发的概率。

经过理论论证,随着所插入的扰动数据量增多,后门触发器逆向算法成功找到能触发后门的输入的概率呈指数型下降。在实验验证中,当插入 300 个扰动数据时,Gradient Shaping 能将后门检出率从 90% 以上降低至不足 60%,显著削弱现有检测方法的有效性。

1.3 参数不确定性差分分析确立关键参数定位新标准

部署在云端多用户系统环境中运行的人工智能系统可能受到同环境内恶意用户的干扰。系统运行时,模型参数存储在动态存储器芯片中,其部分比特位可能被恶意用户翻转,从而篡改人工智能系统的输出。既有研究普遍认为攻击者必须事先掌握目标人工智能系统的完整参数,才能精确确定翻转位置,但攻击者在现实环境下难以获取完整参数,因此比特翻转攻击威胁较低。

针对这种可能被低估的安全风险(比特翻转攻击), 团队提出了名为 Groan 的攻击方法,在仅知道部分内部参数的情况下,能准确定位关键比特。攻击分为两步:第一,利用人工智能系统在分类边界数据上具有的高输出不确定性这一特点,即人工智能系统在这些数据上会因为输入上的微小扰动而产生在输出上的显著变化,进行启发式搜索,从而收集到足够多的边界数据;第二,利用已收集的分类边界数据和已知的部分参数信息,训练一批与目标人工智能系统具有相似分类边界的替代模型,再通过差分分析替代模型当中对应参数的不确定性差异,进而定位这些替代模型中所共有的关键比特,来定位目标人工智能系统中所需翻转比特的可能位置。

经实验验证,Groan 可以针对部署在云端的基于多种人工智能模型(包括 ResNet、VGG、Transformer 等)的多个人工智能系统,在仅知道少于 50% 的参数的情况下,可以准确定位并成功篡改结果所需翻转的数十个比特位置。在对这些比特位进行翻转后,攻击者能以大于 90%的概率成功篡改目标人工智能系统的输出结果。

在缓解人工智能模型后门攻击的常用方案“后门遗忘”的研究上,目前已有方法主要分为两类:第一类依赖后门检测,先识别出后门触发器,再针对性地消除模型对这些触发器的依赖;第二类则通过在正常数据上对模型进行长时间微调,利用“灾难性遗忘”机制来消除后门,但这些方法耗时较长且有效性不高。团队提出兼具高有效性和高速度的后门遗忘方案 Selective Amnesia。

团队发现,后门遗忘过程中不同参数变化速度不一样,具有高不确定性的参数变化快,而低不确定性的参数变化慢。同时,还发现与后门紧密相关的关键参数具有较低的不确定性。基于这些发现,团队设计了Selective Amnesia 的具体方案。先利用随机标注数据对低不确定性的参数进行有效扰动,再通过正常数据对所有参数进行恢复性微调。

经过理论论证,在事先不知道后门任何信息的情况下,该算法是最快速的后门遗忘算法。经过实验验证,Selective Amnesia 在后门遗忘速度上相较于传统微调方案有 30 倍以上的提升。对于一个携带有后门、拥有 6 GB 大小参数、需要历经超过 70 h 训练的人工智能模型, Selective Amnesia 在与模型训练时相同的系统环境下,仅需不到 1 h 便可遗忘掉这个人工智能模型当中所携带的后门,使得后门攻击成功率从遗忘之前的大于 90% 降低到了小于 10%,同时保持模型在正常任务上的准确度不降低。而利用传统微调方案微调 30 h 后,后门的攻击成功率依然大于 20%。

image.png

图2 唐迪副教授

2 项目落地和推广应用情况

团队的创新成果已经实现了大规模的产业应用,影响并服务数十亿用户。屏幕闪烁人脸活体检测方案 Face Flashing 已被腾讯、华为、阿里巴巴等多家公司所采纳,并在微信人脸识别服务中得到应用。更为重要的是,Face Flashing 在国家政务服务平台得到了大规模部署应用,并在 29 个省级政务服务平台、6 个金融服务平台等数百个关键民生得到应用。

团队在人工智能安全上的研究成果也帮助各大人工智能服务提供企业提供了更稳定的服务。将 Order disorder 的相关实验数据提交给百度、亚马逊、谷歌、必应等搜索引擎公司,推动了这些搜索引擎提高输出排序结果的抗攻击性,并获得了这些搜索引擎团队的高度评价。团队关于 Groan 的研究成果提交给微软和亚马逊公司的云端人工智能服务平台相关团队(微软 Azure 团队和亚马逊 AWS 团队),其均对 Groan 所揭露的安全风险高度重视。团队将 Selective Amnesia 的相关算法共享给微软和京东,帮助他们提升线上人工智能服务对抗后门攻击的能力。

3 社会效益

团队的成果不仅推动了人工智能技术更高效、更安全地落地,更为国家信息安全和公共服务提供了重要保障。其中,Face Flashing 的提出打破了苹果公司 3D 结构光的硬件专利垄断,为非苹果手机及智能终端提供了廉价、公开且安全可靠的人脸活体检测方案。特别是在新冠疫情期间,Face Flashing 被多地应用于防止防疫健康信息码被盗用,有效防止了健康信息被仿冒,切实支撑了国家公共卫生体系的安全运行,服务了国家的医疗卫生需要,产生了重大的社会效益。

研究成果推动了谷歌、必应、百度、亚马逊等主流搜索引擎提高输出排序结果的抗攻击性,促使微软和亚马逊公司提高全线云端人工智能服务的安全隔离等级,提升了全球互联网服务的安全性,保护了亿万用户的信息安全。

研究成果在中国计算机学会(CCF)A 类国际会议上发表论文 13 篇,获得计算机与通信安全会议(ACM CCS 2022)最佳论文提名奖(Best Paper Honorable Mention Award),在神经信息处理系统大会(NeurIPS2022) 特 洛 伊 木 马 检 测 竞 赛(2022 Trojan DetectionCompetition)中获得后门检测最终轮(Final Round of Trojan Detection)和后门绕过(Evasive Trojan)的冠军,提升了我国在人工智能安全领域的国际影响力和学术地位。相关研究成果被包括 11 位电气电子工程师学会(IEEE)会士在内的众多专家在数十篇 CCF-A 类会议和期刊论文中引用和对比,推动了全球人工智能安全研究的发展。

专家简介

唐迪,中山大学网络空间安全学院副教授,博士生导师,香港中文大学博士。主要关注人工智能模型自身的安全问题和利用人工智能技术来解决传统安全问题。多年来,致力于人工智能安全方向的研究,特别在活体检测、后门检测等领域取得了丰富的研究成果,在 USENIX 安全研讨会(USENIX Security Symposium)、计算机与通信安全会议(ACM CCS)、网络与分布式系统安全研讨会(NDSS)、IEEE 安全与隐私研讨会(IEEE S&P)发表学术论文 10 余篇,现担任 USENIX Security Symposium、ACM CCS 等 信 息 安 全 领域会议的程序委员,以及 IEEE Transactions on Dependable and Secure Computing、IEEE Transactions on Information Forensics and Security 等期刊的审稿人。


责任编辑:kj005

文章投诉热线:157 3889 8464  投诉邮箱:7983347 16@qq.com

关键词:

比5070 Ti要低20%左右?NVIDIA RTX 5070跑分成绩曝光

2025-02-27 09:44:12比5070 Ti要低20%左右?NVIDIA RTX 5070跑分成绩曝光

AMD 锐龙7 9700X 对决酷睿i7-14700K:畅玩电竞,新锐龙依旧锐不可挡!

2025-02-27 09:43:39AMD 锐龙7 9700X 对决酷睿i7-14700K:畅玩电竞,新锐龙依旧锐不可挡!

Intel® Amston Lake:边缘计算与网络通信的强劲引擎

2025-02-27 09:43:09Intel® Amston Lake:边缘计算与网络通信的强劲引擎

“我是被逼的” 黄仁勋表示:英伟达不能没有中国

2025-02-27 09:37:35“我是被逼的” 黄仁勋表示:英伟达不能没有中国

相关新闻