在刚刚结束的计算机视觉与模式识别国际会议CVPR 2023中,第四范式联合南京大学、威斯康星大学麦迪逊分校联合团队斩获了由CVPR举办的EPIC-KITCHENS-100系列赛Action Detection赛道冠军。
由IEEE举办的学术性会议CVPR,是全球人工智能计算机视觉领域三大顶级会议之一,被誉为衡量业界科研水准的标杆。该会议旨在研究、探讨全球最前沿的人工智能科学技术,并举办知名国际赛事吸引全球顶尖人工智能团队竞相角逐。
今年的EPIC-KITCHENS-100系列赛相较于往年,任务难度更大,更为考验参赛团队在AI视频理解的创新与研发能力。其以数据集规模大、场景真、标签全著称,成为众多科技巨头、高校和科研机构实验技术成色的试金石。与先前的第三人称视角数据集只需要预测动作标签不同,EPIC-KITCHENS-100是专注于第一人称视角的厨房场景视频数据集,每个行为片段由动作和物体两个部分组成,涵盖了89977个动作,97个动词类别,300个名词类别,因更贴近人类的视觉感知与真实生活场景,具有广泛的研究与应用场景。
Action Detection又被称为行为检测,该赛道不仅识别给定视频中包含的所有行为类别,还要精准定位行为的起止时间,且数据集中包含了丰富的日常动作和短动作,对于算法的准确性和鲁棒性提出了更高的要求。此次,联合团队以独创的业界首个基于Transformer的单阶段 anchor-free 行为检测器——ActionFormer为基础,利用经过InternVideo预训练的VideoMAE模型作为骨干网络,获取了更好的特征表示。此外,联合团队微调了专门针对动作的骨干网络以提取动作信息的特征,以及针对物体的骨干网络以提取物体特征,显著提升了行为检测器的准确性,解决了第一人称视角下模型对动作和物体判断冲突等问题。最终,联合团队以领先第二名33%、第三名48%的绝对优势夺得冠军。
目前,用于此次比赛的核心技术已在第四范式「式说」大模型中应用,其视频理解能力已广泛应用于违规操作识别、安全生产监测、手术智能分析、运动分析等领域。
免责声明:市场有风险,选择需谨慎!此文仅供参考,不作买卖依据。