智御未知守护未来 构筑AI安全壁垒

2025-11-18 15:34:08     来源:

——记中山大学网络空间安全学院副教授唐迪

当今时代,人工智能正以前所未有的速度渗透进人们生活的每个角落,包括金融支付、政务服务、公共安全等关键领域,从日常的人脸识别到关键基础设施的智能决策,AI系统的安全防线已成为数字时代的重要基石。然而,这座看似坚固的科技堡垒,正面临着难以察觉的安全裂缝——恶意输入欺骗、模型行为篡改、参数遭受攻击,这些风险时刻威胁着AI系统的稳健运行。

搜狗高速浏览器截图20251103101653.jpg

在这场守护智能时代的无声战役中,一位青年学者正以创新的科研工作,为AI系统构筑着坚实的安全壁垒。他就是中山大学网络空间安全学院副教授唐迪,一位从不确定性视角重新定义AI安全的探索者,在AI安全领域开辟出一条兼具理论深度与实践价值的创新之路,筑起了一道安全防护墙,助力守护数十亿用户的数字安全。

 输入防线:对比度量精准识别恶意入侵

在AI安全领域,输入端口是系统抵御攻击的第一道防线。唐迪发现,正常输入与恶意输入在不确定性上存在本质差异,基于这一洞察,他创新性提出了“输入不确定性对比度量”方法,为AI系统装上了精准识别恶意入侵的“火眼金睛”。

人脸识别系统在政务服务、金融支付等关键场景中广泛应用,但其安全性一直面临仿冒输入的威胁。传统人脸活体检测方法要求用户完成指定动作,通过动作完成的准确性与延迟进行判别。然而,随着生成式AI与深度伪造技术的飞速发展,攻击者已能在0.2秒内合成包含相应动作的伪造图像,轻松绕过传统防护。

面对这一挑战,唐迪独辟蹊径,将目光投向真实人脸与仿冒人脸在反射光特性上的根本差异。他创新提出Face Flashing方案,通过控制屏幕快速投射多彩光源,捕获并分析人脸反射光中的不确定性特征,以此区分真实与伪造人脸。“真实人脸拥有复杂的三维结构和丰富的皮肤纹理,在变化光照下会呈现出不确定性更高的反射光。而仿冒人脸相对静态,复制这种复杂性成本较高,技术难度较大。”唐迪如此解释。

Face Flashing的创新性在于其双重安全保证:一方面,仿冒真实人脸的反射光需要大量的计算资源和先进算法才能伪造;另一方面,通过利用屏幕与摄像头逐行刷新的特性,将攻击者的可利用时间从传统的0.2秒压缩至0.3毫秒以下,攻击难度呈指数级增加。

这项突破性研究发表于2018年的网络安全顶级会议NDSS,成为首个具备可证明安全保证、且无需额外硬件设备的活体检测方案。更令人振奋的是,Face Flashing的提出与苹果公司的3D结构光技术几乎同期,却打破了后者的硬件专利垄断,为非苹果设备提供了廉价、公开且安全可靠的人脸活体检测方案。

如今,Face Flashing已被腾讯等多家头部企业采纳,应用于微信人脸识别服务中,服务于国家政务服务平台、29个省级政务服务平台以及6个金融服务平台等数百个关键民生应用,影响数十亿用户。在新冠疫情期间,该技术更是在北京、上海、广东等地有效防止了防疫健康信息码被盗用,为公共卫生体系的安全运行提供了坚实支撑。

在训练阶段,唐迪同样针对恶意输入识别做出了开创性工作。他提出的SCAn后门输入检测方案,首次揭示了后门输入与正常输入在模型嵌入向量上的不确定性差异,通过统计分析这种差异,实现了对后门输入的高效识别。

SCAn方案在误报率为0%的情况下,检出率高达99.5%,显著优于现有方法。这一成果不仅发表于网络安全顶级会议USENIX Security 2021,还帮助唐迪所在团队获得了美国政府机构IARPA在后门检测方向上180万美元的研究资助。同时,基于SCAn算法,唐迪在CCF-A类会议NeurIPS 2022举办的全球后门检测竞赛中赢得第一名,展现了其方法在国际上的领先地位。

输出维度:边界探索深入挖掘模型奥秘

AI系统的输出多变而难以预测,微小输入扰动常导致输出显著变化,这种输出不确定性使得模型行为的准确挖掘极具挑战。针对这一难题,唐迪发现模型在分类边界周围的行为富含信息,并提出了“输出边界启发式探索”方法,为理解AI系统行为开辟了新路径。

在部署阶段,唐迪将目光投向搜索引擎这一关键应用场景。传统观点认为,由于搜索引擎输出排序变化大,受影响因素多,攻击者难以获得准确的模型行为刻画,发动的恶意样本攻击成功率自然较低。

然而,唐迪发现了搜索引擎输出排序中不同条目在排名不确定性上的差异,并提出Order-disorder攻击方法。该方法通过启发式搜索算法,高效定位能引发高不确定性输出的关键词,进而挖掘搜索引擎在输出边界附近的行为,获得行为高度相似的替代模型。

据唐迪介绍,Order-disorder攻击方法能以超过90%的概率将原始排名在100以外的指定条目提升到主流搜索引擎结果的前10名中,而现有攻击方法在相同情况下的成功率还不到10%。这项研究成果发表于顶级安全会议CCS 2022,荣获最佳论文提名奖。研究揭露了搜索引擎输出排序被恶意篡改的安全风险,引起了谷歌、必应、百度等主流搜索引擎公司的高度重视。

在训练阶段,唐迪针对后门检测研究提出了名为Gradient Shaping的后门隐藏方法。传统观点认为逆向后门触发器算法能有效识别后门,但唐迪发现,传统后门触发器具有低输出不确定性,导致与后门触发器相近的输入也能触发后门,这正是逆向检测有效的原因。基于此发现,唐迪设计了一种增加触发器输出不确定性的扰动插入方法,通过向训练数据中启发式地插入扰动数据,迫使模型在面对与触发器相近的输入时产生显著输出差异。

随着插入的扰动数据量增多,后门触发器逆向算法成功概率呈指数型下降。实验表明,当插入300个扰动数据时,Gradient Shaping能将后门检出率从90%以上降低至不足60%。唐迪以通讯作者身份将这一研究成果发表于顶级安全会议NDSS 2024的同时,也凭借其中的后门隐藏算法,赢得了NeurIPS 2022全球后门躲避竞赛的第一名。

搜狗高速浏览器截图20251103101702.jpg

 参数解密:差分分析精确定位关键风险点

AI系统的参数各异,相同训练数据上训练得到的模型往往具备显著不同的参数集,这种参数不确定性使得定位关键参数极具挑战。唐迪创新性提出“参数不确定性差分分析”方法,通过给参数增加扰动,观察持续训练时参数不确定性变化,精确定位与攻击相关的关键参数。

在部署阶段,唐迪关注到部署在云端多用户系统环境中的AI系统面临的比特翻转攻击威胁。传统观点认为,由于攻击者难以获取AI系统的完整参数,比特翻转攻击的实际威胁较低。但唐迪的研究打破了这一认知,他提出的Groan攻击方法,在仅知道部分内部参数的情况下,通过两个关键步骤定位关键比特:首先利用AI系统在分类边界数据上的高输出不确定性,启发式搜索收集足够多的边界数据;然后利用这些数据和已知的部分参数信息,训练一批与目标AI系统具有相似分类边界的替代模型。

通过差分分析替代模型中参数的不确定性差异,定位替代模型中共有的关键比特。实验验证,Groan能在仅知道不足50%参数的情况下,准确定位出需要翻转的数十个比特位置,翻转后能以超过90%的概率成功篡改目标AI系统的输出。这项研究发表于顶级安全会议USENIX Security 2024,揭露了多用户系统环境中AI系统被比特翻转攻击的安全风险,引起了微软Azure团队和亚马逊AWS团队的高度重视。

在训练阶段,唐迪聚焦后门遗忘这一重要问题,提出兼具高有效性和高速性的Selective Amnesia方案。通过不确定性差分分析,他发现后门遗忘过程中不同参数变化速度不同:高不确定性参数变化快,低不确定性参数变化慢,而与后门紧密相关的关键参数恰恰具有低不确定性。

基于这一发现,唐迪设计了Selective Amnesia的具体方案:先利用随机标注数据对低不确定性参数进行有效扰动,再通过正常数据对所有参数进行恢复性微调。这一算法在后门遗忘速度上相较于传统微调方案有30倍以上的提升:对一个需要70多小时训练的6GB参数AI模型,Selective Amnesia仅需不到1小时便可遗忘其中携带的后门,同时保持模型正常功能不受影响。

该项研究成果发表于安全领域接收率最低的顶级会议S&P2023,成为首个兼具高效性和高速性的后门遗忘算法。Selective Amnesia的相关算法已共享给微软和京东公司,用于提升其线上AI服务对抗后门攻击的能力。

“对AI不确定性的探索,可能为破解AI安全提供新的途径。”唐迪的不确定性分析方法论现已形成了一套较完整的技术体系,将难以量化的安全风险转化为可计算的数学模型。这种从不确定性到确定性的转化,为AI安全提供理论支撑,开创了“防御-攻击-再防御”的螺旋式研究范式。他的研究成果不仅在顶级学术会议频频亮相,更走出象牙塔,影响着数十亿用户的数字生活。

在智能时代,随着AI技术向更广泛领域渗透,安全挑战将愈发复杂。唐迪表示,他和团队正将不确定性分析框架拓展至大语言模型、具身智能等前沿领域,致力于在技术创新的源头构筑安全屏障。这条从不确定性分析出发的创新之路,正持续拓展着数字时代的安全边界。(供稿单位:中山大学。作者:张霞)

免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。

标签:

猜你喜欢

线上IP养成+线下场景联动,好利来X小火人蛋糕抖音团购7天卖600万元
战魂不灭,青春重燃——StarsWar12 DOTA1线下总决赛圆满落幕
靠抖音拓展连锁,贵州酸汤火锅从浙江县城走向全国
吴伟:情境美学如何成为产业新增长极?
Akko磁轴双雄来袭!5075/5087 V3 HE来啦!
华大北斗连续三年荣膺“中国芯”优秀技术创新产品奖
6G标准化工作正稳步推进,高通李俨:为产业协同提供支持
龙蜥社区AI引擎生态加速合作计划正式发布,龙蜥操作系统在“云+AI”增量市场的市占率将突破50%
鸿蒙版微信读书重大更新,新增购书、会员、书币充值、意见反馈等
鸿蒙版微信读书重大更新,新增购书、会员、书币充值、意见反馈等
微博自研VibeThinker开源模型:15亿参数超越千亿级对手,训练成本仅7800美元
合合信息携手腾讯云升级智能决策平台,多业务场景查询效率提升45%
QQ音乐正式上线Weverse DM服务,持续深耕KPOP粉丝平台领域
抖音生活服务加强医美直播间内容治理,2.3万个违规达人被封禁团购权限
智效启迪发布AI+企业知识赋能方案,助力企业打造智慧大脑
当品牌名变成一种人生观:Mom's Garden任我行的破圈逻辑
从“系统掣肘”到“高效协同”,小天互连IM系统的破局之路
BYDFi成为CCCC Lisbon 2025赞助方 支持全球Web3创作者经济
受邀参加圆桌讨论!云通数达:“车路云一体化”规模化应用推广是个技术活也是个机制活
受邀参加圆桌讨论!云通数达:“车路云一体化”规模化应用推广是个技术活也是个机制活
2025人工智能+大会发布“AI100应用标杆榜”,百度文心大模型、萝卜快跑入选
“数字大脑”绘就养老数据地图 智慧平台破题城市养老资源统筹难
阿里云Chat App消息服务如何助力企业高效触达全球用户?
AI无界·万物新生:大湾区国际创客峰会暨Maker Faire Shenzhen 2025盛大开幕
生成式AI驱动芯片市场高增 寒武纪以核心技术筑就竞争优势
三代人四十载,铸就绿色“能源动脉”——中国煤科武汉设计院攻坚绿色管道输煤成套技术
Qt Group支持英伟达CUDA安全与编码指南
徒步庆三十周年,厦门太古可口可乐以公益活动凝聚团队力量
沛嘉医疗:助力孵化创新产品,推动高端医疗器械产业高质量发展
《腾讯大掼蛋》:打造人人可参与的线上掼蛋乐园