近年来,在视频采集传感器以及信息科学领域技术蓬勃发展的前提下,基于计算机视觉的视频分析任务,尤其是人体行为识别技术在虚拟现实、视频监控、视频检索、医疗和游戏等方面有着广泛的应用。人体行为识别是计算机视觉的一个热门研究话题。
人类行为识别(HAR)是通过复杂技术破译人类行为的过程,以使机器能够理解、分析、理解和分类这些行为,并给出任何形式的有效输入或刺激。深度学习对于解决识别与分类问题非常有效,因为它执行端到端优化,且相关任务可以相互受益(转移学习)。
据悉,微美全息(NASDAQ:WIMI)以具有良好的表征能力的卷积神经网络CNN为基础,开发了基于卷积神经网络的三维人体行为识别算法系统。
首先,从骨骼关节的相对运动中提取四个独特的时空特征向量,将这些特征随后被编码到图像中,然后将这些图像送入CNN进行深层特征提取。更具体地说,该系统是将骨架数据用于3D人类行为识别任务,从三维骨架数据中提取四种类型的信息特征(距离、距离速度、角度和角度速度特征),并使用合适的编码方案将其编码为图像。另外WIMI微美全息还使用反离子优化从特征空间中删除冗余和误导性信息。最后,WIMI微美全息使用分类对操作进行最终预测。
基于卷积神经网络的三维人体行为识别算法系统的应用流程主要包括数据收集、数据预处理、特征提取、分类、预测决策等。
第一步是为基于卷积神经网络的三维人体行为识别算法系统收集适当的数据。适当、结构化和正确标记的数据集是训练模型的最基本要求之一。神经网络会将数据集作为母体学习其相应特征信息,保存为深度神经网络训练后的记忆,并以此记忆为依托对其他相应数据集进行预测。因此数据集质量的高低会直接影响到神经网络训练的质量,一个覆盖面广、信息全、分辨率高的数据集训练出的神经网络要远比简单、低分辨率、背景复杂的数据集训练出的网络效果好。人体行为识别网络对于数据集的要求包括行为类别要全面、行为质量要高、视频要清晰等等。
第二步是数据的预处理,特征变换、特征选择和特征提取耦合在一起,通常称为数据预处理模块。特征的提取和正确表示是提高模型性能的关键步骤。对于高维数据,模型过拟合的可能性相对增加,因此需要选择相关特征。为分类模型选择所需的特征是正确的关键步骤。接下来是分类,将提取的特征用于训练模型,以完成对不同形式的人类行为识别和分类的任务。最后是预测分析,从卷积神经网络模型的输入中提取更多信息特征,使模型可以在不考虑类别之间的视觉差异的情况下进行决策。
WIMI微美全息的基于卷积神经网络的三维人体行为识别算法技术可实现对个体及群体进行高精准度的行为识别,对设定的异常行为进行预判并及时预警,其可广泛运用于人员识别、车辆识别、区域入侵、目标异常检测等运用场景。