当今时代,人工智能正以前所未有的速度渗透进人们生活的每个角落,包括金融支付、政务服务、公共安全等关键领域,从日常的人脸识别到关键基础设施的智能决策,AI系统的安全防线已成为数字时代的重要基石。然而,这座看似坚固的科技堡垒,正面临着难以察觉的安全裂缝——恶意输入欺骗、模型行为篡改、参数遭受攻击,这些风险时刻威胁着AI系统的稳健运行。

在这场守护智能时代的无声战役中,一位青年学者正以创新的科研工作,为AI系统构筑着坚实的安全壁垒。他就是中山大学网络空间安全学院副教授唐迪,一位从不确定性视角重新定义AI安全的探索者,在AI安全领域开辟出一条兼具理论深度与实践价值的创新之路,筑起了一道安全防护墙,助力守护数十亿用户的数字安全。
输入防线:对比度量精准识别恶意入侵
在AI安全领域,输入端口是系统抵御攻击的第一道防线。唐迪发现,正常输入与恶意输入在不确定性上存在本质差异,基于这一洞察,他创新性提出了“输入不确定性对比度量”方法,为AI系统装上了精准识别恶意入侵的“火眼金睛”。
人脸识别系统在政务服务、金融支付等关键场景中广泛应用,但其安全性一直面临仿冒输入的威胁。传统人脸活体检测方法要求用户完成指定动作,通过动作完成的准确性与延迟进行判别。然而,随着生成式AI与深度伪造技术的飞速发展,攻击者已能在0.2秒内合成包含相应动作的伪造图像,轻松绕过传统防护。
面对这一挑战,唐迪独辟蹊径,将目光投向真实人脸与仿冒人脸在反射光特性上的根本差异。他创新提出Face Flashing方案,通过控制屏幕快速投射多彩光源,捕获并分析人脸反射光中的不确定性特征,以此区分真实与伪造人脸。“真实人脸拥有复杂的三维结构和丰富的皮肤纹理,在变化光照下会呈现出不确定性更高的反射光。而仿冒人脸相对静态,复制这种复杂性成本较高,技术难度较大。”唐迪如此解释。
Face Flashing的创新性在于其双重安全保证:一方面,仿冒真实人脸的反射光需要大量的计算资源和先进算法才能伪造;另一方面,通过利用屏幕与摄像头逐行刷新的特性,将攻击者的可利用时间从传统的0.2秒压缩至0.3毫秒以下,攻击难度呈指数级增加。
这项突破性研究发表于2018年的网络安全顶级会议NDSS,成为首个具备可证明安全保证、且无需额外硬件设备的活体检测方案。更令人振奋的是,Face Flashing的提出与苹果公司的3D结构光技术几乎同期,却打破了后者的硬件专利垄断,为非苹果设备提供了廉价、公开且安全可靠的人脸活体检测方案。
如今,Face Flashing已被腾讯等多家头部企业采纳,应用于微信人脸识别服务中,服务于国家政务服务平台、29个省级政务服务平台以及6个金融服务平台等数百个关键民生应用,影响数十亿用户。在新冠疫情期间,该技术更是在北京、上海、广东等地有效防止了防疫健康信息码被盗用,为公共卫生体系的安全运行提供了坚实支撑。
在训练阶段,唐迪同样针对恶意输入识别做出了开创性工作。他提出的SCAn后门输入检测方案,首次揭示了后门输入与正常输入在模型嵌入向量上的不确定性差异,通过统计分析这种差异,实现了对后门输入的高效识别。
SCAn方案在误报率为0%的情况下,检出率高达99.5%,显著优于现有方法。这一成果不仅发表于网络安全顶级会议USENIX Security 2021,还帮助唐迪所在团队获得了美国政府机构IARPA在后门检测方向上180万美元的研究资助。同时,基于SCAn算法,唐迪在CCF-A类会议NeurIPS 2022举办的全球后门检测竞赛中赢得第一名,展现了其方法在国际上的领先地位。
输出维度:边界探索深入挖掘模型奥秘
AI系统的输出多变而难以预测,微小输入扰动常导致输出显著变化,这种输出不确定性使得模型行为的准确挖掘极具挑战。针对这一难题,唐迪发现模型在分类边界周围的行为富含信息,并提出了“输出边界启发式探索”方法,为理解AI系统行为开辟了新路径。
在部署阶段,唐迪将目光投向搜索引擎这一关键应用场景。传统观点认为,由于搜索引擎输出排序变化大,受影响因素多,攻击者难以获得准确的模型行为刻画,发动的恶意样本攻击成功率自然较低。
然而,唐迪发现了搜索引擎输出排序中不同条目在排名不确定性上的差异,并提出Order-disorder攻击方法。该方法通过启发式搜索算法,高效定位能引发高不确定性输出的关键词,进而挖掘搜索引擎在输出边界附近的行为,获得行为高度相似的替代模型。
据唐迪介绍,Order-disorder攻击方法能以超过90%的概率将原始排名在100以外的指定条目提升到主流搜索引擎结果的前10名中,而现有攻击方法在相同情况下的成功率还不到10%。这项研究成果发表于顶级安全会议CCS 2022,荣获最佳论文提名奖。研究揭露了搜索引擎输出排序被恶意篡改的安全风险,引起了谷歌、必应、百度等主流搜索引擎公司的高度重视。
在训练阶段,唐迪针对后门检测研究提出了名为Gradient Shaping的后门隐藏方法。传统观点认为逆向后门触发器算法能有效识别后门,但唐迪发现,传统后门触发器具有低输出不确定性,导致与后门触发器相近的输入也能触发后门,这正是逆向检测有效的原因。基于此发现,唐迪设计了一种增加触发器输出不确定性的扰动插入方法,通过向训练数据中启发式地插入扰动数据,迫使模型在面对与触发器相近的输入时产生显著输出差异。
随着插入的扰动数据量增多,后门触发器逆向算法成功概率呈指数型下降。实验表明,当插入300个扰动数据时,Gradient Shaping能将后门检出率从90%以上降低至不足60%。唐迪以通讯作者身份将这一研究成果发表于顶级安全会议NDSS 2024的同时,也凭借其中的后门隐藏算法,赢得了NeurIPS 2022全球后门躲避竞赛的第一名。

参数解密:差分分析精确定位关键风险点
AI系统的参数各异,相同训练数据上训练得到的模型往往具备显著不同的参数集,这种参数不确定性使得定位关键参数极具挑战。唐迪创新性提出“参数不确定性差分分析”方法,通过给参数增加扰动,观察持续训练时参数不确定性变化,精确定位与攻击相关的关键参数。
在部署阶段,唐迪关注到部署在云端多用户系统环境中的AI系统面临的比特翻转攻击威胁。传统观点认为,由于攻击者难以获取AI系统的完整参数,比特翻转攻击的实际威胁较低。但唐迪的研究打破了这一认知,他提出的Groan攻击方法,在仅知道部分内部参数的情况下,通过两个关键步骤定位关键比特:首先利用AI系统在分类边界数据上的高输出不确定性,启发式搜索收集足够多的边界数据;然后利用这些数据和已知的部分参数信息,训练一批与目标AI系统具有相似分类边界的替代模型。
通过差分分析替代模型中参数的不确定性差异,定位替代模型中共有的关键比特。实验验证,Groan能在仅知道不足50%参数的情况下,准确定位出需要翻转的数十个比特位置,翻转后能以超过90%的概率成功篡改目标AI系统的输出。这项研究发表于顶级安全会议USENIX Security 2024,揭露了多用户系统环境中AI系统被比特翻转攻击的安全风险,引起了微软Azure团队和亚马逊AWS团队的高度重视。
在训练阶段,唐迪聚焦后门遗忘这一重要问题,提出兼具高有效性和高速性的Selective Amnesia方案。通过不确定性差分分析,他发现后门遗忘过程中不同参数变化速度不同:高不确定性参数变化快,低不确定性参数变化慢,而与后门紧密相关的关键参数恰恰具有低不确定性。
基于这一发现,唐迪设计了Selective Amnesia的具体方案:先利用随机标注数据对低不确定性参数进行有效扰动,再通过正常数据对所有参数进行恢复性微调。这一算法在后门遗忘速度上相较于传统微调方案有30倍以上的提升:对一个需要70多小时训练的6GB参数AI模型,Selective Amnesia仅需不到1小时便可遗忘其中携带的后门,同时保持模型正常功能不受影响。
该项研究成果发表于安全领域接收率最低的顶级会议S&P2023,成为首个兼具高效性和高速性的后门遗忘算法。Selective Amnesia的相关算法已共享给微软和京东公司,用于提升其线上AI服务对抗后门攻击的能力。
“对AI不确定性的探索,可能为破解AI安全提供新的途径。”唐迪的不确定性分析方法论现已形成了一套较完整的技术体系,将难以量化的安全风险转化为可计算的数学模型。这种从不确定性到确定性的转化,为AI安全提供理论支撑,开创了“防御-攻击-再防御”的螺旋式研究范式。他的研究成果不仅在顶级学术会议频频亮相,更走出象牙塔,影响着数十亿用户的数字生活。
在智能时代,随着AI技术向更广泛领域渗透,安全挑战将愈发复杂。唐迪表示,他和团队正将不确定性分析框架拓展至大语言模型、具身智能等前沿领域,致力于在技术创新的源头构筑安全屏障。这条从不确定性分析出发的创新之路,正持续拓展着数字时代的安全边界。(供稿单位:中山大学。作者:张霞)
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。
