智御未知守护未来构筑AI安全壁垒

——记中山大学网络空间安全学院副教授唐迪

当今时代，人工智能正以前所未有的速度渗透进人们生活的每个角落，包括金融支付、政务服务、公共安全等关键领域，从日常的人脸识别到关键基础设施的智能决策，AI系统的安全防线已成为数字时代的重要基石。然而，这座看似坚固的科技堡垒，正面临着难以察觉的安全裂缝——恶意输入欺骗、模型行为篡改、参数遭受攻击，这些风险时刻威胁着AI系统的稳健运行。

搜狗高速浏览器截图20251103101653.jpg

在这场守护智能时代的无声战役中，一位青年学者正以创新的科研工作，为AI系统构筑着坚实的安全壁垒。他就是中山大学网络空间安全学院副教授唐迪，一位从不确定性视角重新定义AI安全的探索者，在AI安全领域开辟出一条兼具理论深度与实践价值的创新之路，筑起了一道安全防护墙，助力守护数十亿用户的数字安全。

　输入防线：对比度量精准识别恶意入侵

在AI安全领域，输入端口是系统抵御攻击的第一道防线。唐迪发现，正常输入与恶意输入在不确定性上存在本质差异，基于这一洞察，他创新性提出了“输入不确定性对比度量”方法，为AI系统装上了精准识别恶意入侵的“火眼金睛”。

人脸识别系统在政务服务、金融支付等关键场景中广泛应用，但其安全性一直面临仿冒输入的威胁。传统人脸活体检测方法要求用户完成指定动作，通过动作完成的准确性与延迟进行判别。然而，随着生成式AI与深度伪造技术的飞速发展，攻击者已能在0.2秒内合成包含相应动作的伪造图像，轻松绕过传统防护。

面对这一挑战，唐迪独辟蹊径，将目光投向真实人脸与仿冒人脸在反射光特性上的根本差异。他创新提出Face Flashing方案，通过控制屏幕快速投射多彩光源，捕获并分析人脸反射光中的不确定性特征，以此区分真实与伪造人脸。“真实人脸拥有复杂的三维结构和丰富的皮肤纹理，在变化光照下会呈现出不确定性更高的反射光。而仿冒人脸相对静态，复制这种复杂性成本较高，技术难度较大。”唐迪如此解释。

Face Flashing的创新性在于其双重安全保证：一方面，仿冒真实人脸的反射光需要大量的计算资源和先进算法才能伪造;另一方面，通过利用屏幕与摄像头逐行刷新的特性，将攻击者的可利用时间从传统的0.2秒压缩至0.3毫秒以下，攻击难度呈指数级增加。

这项突破性研究发表于2018年的网络安全顶级会议NDSS，成为首个具备可证明安全保证、且无需额外硬件设备的活体检测方案。更令人振奋的是，Face Flashing的提出与苹果公司的3D结构光技术几乎同期，却打破了后者的硬件专利垄断，为非苹果设备提供了廉价、公开且安全可靠的人脸活体检测方案。

如今，Face Flashing已被腾讯等多家头部企业采纳，应用于微信人脸识别服务中，服务于国家政务服务平台、29个省级政务服务平台以及6个金融服务平台等数百个关键民生应用，影响数十亿用户。在新冠疫情期间，该技术更是在北京、上海、广东等地有效防止了防疫健康信息码被盗用，为公共卫生体系的安全运行提供了坚实支撑。

在训练阶段，唐迪同样针对恶意输入识别做出了开创性工作。他提出的SCAn后门输入检测方案，首次揭示了后门输入与正常输入在模型嵌入向量上的不确定性差异，通过统计分析这种差异，实现了对后门输入的高效识别。

SCAn方案在误报率为0%的情况下，检出率高达99.5%，显著优于现有方法。这一成果不仅发表于网络安全顶级会议USENIX Security 2021，还帮助唐迪所在团队获得了美国政府机构IARPA在后门检测方向上180万美元的研究资助。同时，基于SCAn算法，唐迪在CCF-A类会议NeurIPS 2022举办的全球后门检测竞赛中赢得第一名，展现了其方法在国际上的领先地位。

输出维度：边界探索深入挖掘模型奥秘

AI系统的输出多变而难以预测，微小输入扰动常导致输出显著变化，这种输出不确定性使得模型行为的准确挖掘极具挑战。针对这一难题，唐迪发现模型在分类边界周围的行为富含信息，并提出了“输出边界启发式探索”方法，为理解AI系统行为开辟了新路径。

在部署阶段，唐迪将目光投向搜索引擎这一关键应用场景。传统观点认为，由于搜索引擎输出排序变化大，受影响因素多，攻击者难以获得准确的模型行为刻画，发动的恶意样本攻击成功率自然较低。

然而，唐迪发现了搜索引擎输出排序中不同条目在排名不确定性上的差异，并提出Order-disorder攻击方法。该方法通过启发式搜索算法，高效定位能引发高不确定性输出的关键词，进而挖掘搜索引擎在输出边界附近的行为，获得行为高度相似的替代模型。

据唐迪介绍，Order-disorder攻击方法能以超过90%的概率将原始排名在100以外的指定条目提升到主流搜索引擎结果的前10名中，而现有攻击方法在相同情况下的成功率还不到10%。这项研究成果发表于顶级安全会议CCS 2022，荣获最佳论文提名奖。研究揭露了搜索引擎输出排序被恶意篡改的安全风险，引起了谷歌、必应、百度等主流搜索引擎公司的高度重视。

在训练阶段，唐迪针对后门检测研究提出了名为Gradient Shaping的后门隐藏方法。传统观点认为逆向后门触发器算法能有效识别后门，但唐迪发现，传统后门触发器具有低输出不确定性，导致与后门触发器相近的输入也能触发后门，这正是逆向检测有效的原因。基于此发现，唐迪设计了一种增加触发器输出不确定性的扰动插入方法，通过向训练数据中启发式地插入扰动数据，迫使模型在面对与触发器相近的输入时产生显著输出差异。

随着插入的扰动数据量增多，后门触发器逆向算法成功概率呈指数型下降。实验表明，当插入300个扰动数据时，Gradient Shaping能将后门检出率从90%以上降低至不足60%。唐迪以通讯作者身份将这一研究成果发表于顶级安全会议NDSS 2024的同时，也凭借其中的后门隐藏算法，赢得了NeurIPS 2022全球后门躲避竞赛的第一名。

搜狗高速浏览器截图20251103101702.jpg

　参数解密：差分分析精确定位关键风险点

AI系统的参数各异，相同训练数据上训练得到的模型往往具备显著不同的参数集，这种参数不确定性使得定位关键参数极具挑战。唐迪创新性提出“参数不确定性差分分析”方法，通过给参数增加扰动，观察持续训练时参数不确定性变化，精确定位与攻击相关的关键参数。

在部署阶段，唐迪关注到部署在云端多用户系统环境中的AI系统面临的比特翻转攻击威胁。传统观点认为，由于攻击者难以获取AI系统的完整参数，比特翻转攻击的实际威胁较低。但唐迪的研究打破了这一认知，他提出的Groan攻击方法，在仅知道部分内部参数的情况下，通过两个关键步骤定位关键比特：首先利用AI系统在分类边界数据上的高输出不确定性，启发式搜索收集足够多的边界数据;然后利用这些数据和已知的部分参数信息，训练一批与目标AI系统具有相似分类边界的替代模型。

通过差分分析替代模型中参数的不确定性差异，定位替代模型中共有的关键比特。实验验证，Groan能在仅知道不足50%参数的情况下，准确定位出需要翻转的数十个比特位置，翻转后能以超过90%的概率成功篡改目标AI系统的输出。这项研究发表于顶级安全会议USENIX Security 2024，揭露了多用户系统环境中AI系统被比特翻转攻击的安全风险，引起了微软Azure团队和亚马逊AWS团队的高度重视。

在训练阶段，唐迪聚焦后门遗忘这一重要问题，提出兼具高有效性和高速性的Selective Amnesia方案。通过不确定性差分分析，他发现后门遗忘过程中不同参数变化速度不同：高不确定性参数变化快，低不确定性参数变化慢，而与后门紧密相关的关键参数恰恰具有低不确定性。

基于这一发现，唐迪设计了Selective Amnesia的具体方案：先利用随机标注数据对低不确定性参数进行有效扰动，再通过正常数据对所有参数进行恢复性微调。这一算法在后门遗忘速度上相较于传统微调方案有30倍以上的提升：对一个需要70多小时训练的6GB参数AI模型，Selective Amnesia仅需不到1小时便可遗忘其中携带的后门，同时保持模型正常功能不受影响。

该项研究成果发表于安全领域接收率最低的顶级会议S&P2023，成为首个兼具高效性和高速性的后门遗忘算法。Selective Amnesia的相关算法已共享给微软和京东公司，用于提升其线上AI服务对抗后门攻击的能力。

“对AI不确定性的探索，可能为破解AI安全提供新的途径。”唐迪的不确定性分析方法论现已形成了一套较完整的技术体系，将难以量化的安全风险转化为可计算的数学模型。这种从不确定性到确定性的转化，为AI安全提供理论支撑，开创了“防御-攻击-再防御”的螺旋式研究范式。他的研究成果不仅在顶级学术会议频频亮相，更走出象牙塔，影响着数十亿用户的数字生活。

在智能时代，随着AI技术向更广泛领域渗透，安全挑战将愈发复杂。唐迪表示，他和团队正将不确定性分析框架拓展至大语言模型、具身智能等前沿领域，致力于在技术创新的源头构筑安全屏障。这条从不确定性分析出发的创新之路，正持续拓展着数字时代的安全边界。(供稿单位：中山大学。作者：张霞)

免责声明：市场有风险，选择需谨慎！此文仅供参考，不作买卖依据。

智御未知守护未来构筑AI安全壁垒

相关阅读

猜你喜欢

热点图片

要闻

智御未知守护未来 构筑AI安全壁垒

相关阅读

猜你喜欢

热点图片

要闻

智御未知守护未来构筑AI安全壁垒