创纪录!网易数帆夺冠CVPR 2023多模态竞赛

2023-08-01 15:25:55     来源:

近日,由国际计算机视觉与模式识别会议(CVPR)主办的第19届多模态超光谱感知系列竞赛(PBVS 2023)结果公布,网易数帆AI团队在此次竞赛中击败了复旦大学、西安电子科技大学、中科院、韩国科技大学、印度大学、美国空军研究实验室等国内外105支知名队伍,以绝对优势夺得多模态赛道冠军,并在更严苛的评估规则下,将识别准确率大幅提升了29%,刷新了赛事纪录。

CVPR是计算机视觉和模式识别领域最重要和权威的国际顶级会议,由电气与电子工程师协会(IEEE)和计算机视觉基金会(CVF)共同主办。CVPR举办的多模态超光谱感知系列竞赛是计算机视觉和模式识别领域的重要赛事之一,自2004年以来已举办19届。多模态是指用不同类型的数据协同推理,结合数据融合技术,让结果更加准确。可以把它类比成人类用视觉、听觉、嗅觉和触觉等感官来感知事物。这项赛事的特点是鼓励参赛团队用创新的多模态方法,利用不同的光谱图像,比如SAR(合成孔径雷达)和EO,来检测、识别和跟踪复杂场景中的目标,让感知更加精确。

建模、数据与规则的多重挑战

多模态算法将不同来源的信息以适当的方式进行融合,这是AI领域对单独使用SAR或EO模态算法效果不理想的解决方案。例如PBVS 2022中SAR最佳准确率只有36%,利用多模态技术结合SAR和EO则可以达到51%的准确率。

为了提高算法准确率,参赛团队不仅需要在处理多模态数据时获取关键信息,还要发掘不同模态之间的互补信息,并设计高效的特征提取和融合方法。换言之,多模态建模能力的优劣对最终准确率具有决定性影响,而多模态信息的交互和挖掘也是竞赛的关键和难点。

类别之间混淆严重是竞赛设置的挑战。如下图所示,SAR模态的10个不同类别数据(每列为一个类别),每个类别提供了2张样例图片数据,红框的类别1和2,蓝框的类别5和类别6,单从图像上看近乎一样,识别难度极大。

类别数据不平衡,图片尺寸小,也为比赛带来了一定挑战。 例如sedan类别数据有36.3w条,而flatbed truck with trailer等类别只有600条。而且这些数据中,尺寸最大的只有55x55px,最小的仅有31x31px。

和以往竞赛不同,新的评估规则与类别不平衡形成了“双杀”。具体而言,PBVS 2023在历年的模型识别准确度(Accuracy)指标之外,还引入AUROC指标评估模型检测异常样本的能力,最终得分 Score = 0.75 Accuracy + 0.25 AUROC。相比Accuracy关注分类正确的样本比例,AUROC更关注不同阈值下的性能,因而在类别不平衡的情况下更可靠,但也意味着参赛团队在建模中必须考虑样本稀少的类别。

Transformer与级联算法建功

对于多模态问题,网易数帆在尝试、比对多种方法之后,最终选择使用Transformer构建不同模态之间的关系,进行特征交互,提升识别性能。由谷歌于2017年提出的Transformer模型,在NLP、视觉、语音、强化学习与推荐等领域都有成功应用,在跨模态建模上优势明显,是深度学习领域近年来的重要进展,也是当前引发AI技术革命的大语言模型的基础。网易数帆AI团队对于Transformer的创新和应用具有多年的实践和深厚的积累,也曾凭此技术创新获得ASRU2019大赛端到端语音识别赛道冠军。

对于混淆严重的问题,网易数帆提出了一个基于检索增强的级联结构。该结构包含两级分类器,分别用于较为容易识别的类别和困难的类别。其中,一级分类器由CNN + Transformer + 分类头构成,能够很好地识别较容易的样本,同时过滤出难以区分的混淆样本,并传递给二级分类器;二级分类器则采用p-Hash Retriever算法,包含一个p-Hash检索器和一个细粒度分类器。p-Hash算法基于纹理相似性找出所有相似的类别形成类别簇,细粒度分类器对于该簇的所有样本进行投票,投票最多的标签被选举为该簇所有样本的最终标签,由此解决混淆类别难以区分的问题。

此外,对于尺寸小,类别不平衡等难题,网易数帆使用了数据插值、数据增广、动态采样、Focal Loss损失函数等手段进行进一步的优化性能。

经过多重设计和优化,网易数帆多模态算法总得分及各项指标成绩排名均大幅度领先于竞争对手(下图中overfittinghhh为网易数帆AI团队),其中Accuracy指标达到了80%,相对于2022年冠军的51%,提升了29个百分点,大幅刷新了纪录。

业务智能化倒逼算法进步

网易数帆多模态算法研发与打磨,得益于业务实践的需求。这一算法已被用在LOFTER图文多模态低质审核项目中,帮助业务拦截了超过70%的恶意攻击,日均过滤内容7w左右,获得了业务的好评。在网易云音乐业务,如在质量审核中,多模态算法线上准确度超过了95%,基本达到了人工审核效果。整个2022年度,该算法大约承担了网易云音乐10位专业运营人员一年的总工作量。

从整个行业来看,多模态是全球学术界、工业界和政府机构的研究人员持续关注的热点领域,常应用传感/成像技术、监控和侦察系统等,且在无人驾驶、公共安全和国防等特殊领域具有重大的研究价值。在跨模态大模型成为星辰大海的今天,网易数帆认为,基于多模态的创新及相关技术积累,将为智慧生产力模型进一步迭代夯实“内功”,帮助企业增加智慧资产的丰富度,在业务数字化、智能化转型中发挥更大的作用,实现技术创新与业务发展的双赢。

 

标签:

猜你喜欢

致敬高温下的劳动者 WiFi万能钥匙“爱心补给站”再度营业
【全景求是客户共创计划】一场与客户的双向奔赴
忙碌一族的福音!AEKE家庭智能健身房让你随时随地健身
还能更低?坚果投影再推历史最低价三色激光投影新品N1 Air
美的空调:用40年时代发展演绎美好空气变迁史
联通数科智慧应急解决方案市场份额排名第一!
珍惜生命基金会重启夏令营 李家杰博士与600名先心病儿童展开“人生对话”
老兵的情怀——酒逢盛世·繁荣金典
远程行业独角兽久尺科技(Zuler),开启中国云渲染实力新高度
快递100 | 中国快递物流信息云服务领导品牌
迈向车联网规模商用,天津河北区携手华为等产业伙伴联合发布商用示范及开放测试道路
数字人天妤现山西中考考题 元圆科技数字赋能文化传承再获认可
旷影投影仪亮相2023家电及消费电子博览会
看·见未来,歌尔光学发布新一代VR Pancake及AR-HUD PGU模组
网易智企@ChinaJoy:以 AI 迎未来
永不落幕的航空展 越擦越亮的城市名片
携手打造香薰行业数字工厂,浙江中力智能物流助力香飘万里
戏院演什么 一键尽掌握 百视通上线沪上戏曲演出信息便民服务
启科量子作为主赞助商,助力第九届全国大学生物理实验竞赛(教学)成功举办
博彦科技携手仓储机器人行业客户,实现Azure Open AI在企业运营中的落地
Zuler | 从远程控制到云桌面,一家有中国梦的企业
八位堂(8BitDo)重磅亮相2023 ChinaJoy,燃爆现场
十年经典之作:八位堂(8BitDo)首款键盘来了!
凝结历史经验丨京西重工66年匠心,打造全球前沿空气悬架技术
稳石氢能完成新一轮融资|为新能源发电提供储能终极解决方案!
海南文昌:引领北斗产业国际化新航程
“首都全光运力网”助力“东数西算、东数西存” ——北京移动荣获第二届“光华杯”全光运力专题赛一等奖
打造智慧家居新体验,上海创维智家1号店盛大开业!
全国智能拍摄产业峰会将于2023年8月4日在北京隆重召开
探秘TCL T7H:330级分区+HDR 1300nits,带来真正的HDR震撼_电视_画面_亮度