基于Log-Euclidean词袋模型与基于Stein核稀疏编码的人体行为识别算法的优化与改进
来源:用户上传
作者:
摘 要:人体行为识别作为计算机视觉研究热点,在智能监控、人机交互、运动分析等领域具有广泛的应用前景。文章运用时空特征协方差矩阵表征视频中人体行为,分别研究并改进了基于Log-Euclidean词袋模型与基于Stein核稀疏编码的人体行为识别算法。
关键词:识别算法;智能监控;优化
中图分类号:TP391 文献标志码:A 文章编号:2095-2945(2019)35-0010-02
Abstract: As a research hotspot of computer vision, human activity recognition has a wide application prospect in the fields of intelligent monitoring, human-computer interaction, motion analysis and so on. In this paper, the spatio-temporal feature covariance matrix is used to represent the human behavior in the video, and the human behavior recognition algorithms based on Log-Euclidean bag model and Stein kernel sparse coding are studied and improved respectively.
Keywords: identification algorithm; intelligent monitoring; optimization
1 本文主要貢献及创新
本文主要研究特征协方差矩阵表征人体行为的方法,根据行为表征方式的不同以及协方差矩阵的几何特性,分别研究并改进了一种基于Log-Euclidean词袋模型的人体行为识别框架以及一种基于Stein核稀疏编码的人体行为识别算法,主要贡献及创新点如下:
第一,研究特征协方差矩阵融合不同特征表征人体行为的方法。综合分析梯度与光流特征在行为表征中的作用,总结他人成果,重新组合改进梯度光流特征,提取人体边缘与运动特性。为了提高行为特征的稳定性和鲁棒性,引入基于时空轮廓信息的外观特征。研究协方差矩阵计算预处理与归一化方法。
第二,研究基于改进的Log-Euclidean词袋模型的人体行为识别算法。将视频划分为连续视频段,将视频段划分为相互重叠时空立方块,在时空立方块中计算协方差矩阵,为了利用欧式空间几何特性,通过对数运算将协方差矩阵转换为Log-Euclidean空间向量。改进Log-Euclidean空间词袋模型人体行为建模,采用谱聚类代替传统聚类算法如k-means进行字典学习,谱聚类操作简便,对聚类数敏感度低,性能优于传统聚类算法,采用局部约束线性编码代替常见的软/硬编码、稀疏编码算法,局部约束稀疏编码重构良好、稀疏平滑,且拥有快速计算方法。结合空间金字塔模型进行特征池化,整合视频行为特征,采用非线性支撑向量机进行行为分类与识别。
2 基于改进的Log-Euclidean词袋模型的人体行为识别
人体行为识别算法包括行为特征提取、行为建模以及行为理解与描述三个关键技术。本章从关键技术入手,研究了提取时空立方块特征协方差矩阵的方法,将协方差矩阵转换为Log-Euclidean空间向量,将黎曼流形空间问题转换为欧式空间问题;我们将经典的视觉词袋模型(bag of visual words)运用于行为建模,并改进了传统词袋模型中字典学习与编码方法,研究使用谱聚类[}3s}(spectral clustering)字典学习方法代替传统的k-means等聚类算法,谱聚类相较于传统的聚类方法操作简便且性能优越,特征编码采用局部约束线性编码[}36}(LLC),而不是传统的软/硬编码、稀疏编码,LLC编码基于稀疏编码,但是采用局部约束代替稀疏限制条件,稀疏平滑且重构良好,能快速计算;最后,探讨非线性支撑向量机(SVM)行为识别与理解。
2.1 行为特征提取
将视频划分为连续等长视频段,将视频段划分为大小相同、相互重叠的时空立方块(cuboids),对每个立方块提取梯度光流特征或者外观特征,计算相应的时空三维协方差矩阵,协方差矩阵位于黎曼流形空间。为了避免流形空间非线性运算,对协方差矩阵进行对数运算,从黎曼流形映射到对称矩阵空间,即线性空间。对称矩阵含有冗余特征,可以将对称矩阵映射到Log-Euclidean空间,即将对称矩阵有规律的拉伸为向量。在Log-Euclidean空间可以采用欧式空间方法对行为特征进行处理,从而识别人体行为。
2.2 改进的Log-Euclidean词袋模型
在行为特征提取过程中,提取时空立方块协方差矩阵,转换为Log-Euclidean空间向量,为了更好的表征视频中人体行为,我们采用改进的词袋模型进行建模。传统的词袋模型通常采用k-means聚类进行字典学习,而改进的Log-Euclidean词袋模型则在Log-Euclidean特征空间采用谱聚类[[35]进行字典学习,谱聚类相较于k-means等传统聚类方法表现更好,且操作简便,对聚类数的敏感度更低。传统的词袋模型通常采用软/硬编码、稀疏编码等进行特征编码,而改进的Log-Euclidean词袋模型则采用局部约束线性编码(LLC)对视频段中人体行为进行编码,LLC相较于常见的编码方法具有局部约束与重构良好等属性,局部是比稀疏更本质的属性,并且具有快速算法,时间复杂度低。改进的Log-Euclidean词袋模型操作简便,具有更好的稳定性,能有效提高行为特征编码的判别能力。结合空间金字塔模型进行特征池化,整合视频段特征,最终生成视频人体行为特征。 3 基于Stein核稀疏编码的人体行为识别
为了改进视频段协方差矩阵判别能力并加快分类识别速度,我们引入了基于对称正定矩阵空间的协方差矩阵降维方法,该方法不需要进行空间和数据类型的转换,可以降低特征协方差矩阵的维数,保留黎曼几何特性,并能增加数据类内聚合度和类间离散度,从而提高识别准确率。改进的Log-Euclidean词袋模型虽然相对传统词袋模型有不少改进,且提高了稳定性和特征编码判别能力,但词袋模型无疑仍是比较繁杂的框架,缺少实际应用价值。为了克服这些缺陷,我们将视频段中改进的梯度光流协方差矩阵或外观协方差矩阵与Stein核稀疏编码算法进行组合构建行为识别框架,结构极其简单,计算复杂度低,具有良好的识别准确率。核稀疏编码是采用Stein核将协方差矩阵映射到再生核希尔伯特空间,进行稀疏编码和字典学习。
3.1 视频段特征协方差矩阵
在本章中,我们采用特征协方差矩阵表征视频段人体行为。将视频序列划分为互相重叠的等长视频段,在视频段中进行深度时空特征采样,提取每个像素的梯度光流特征或者外观特征。融合各个特征,采用计算特征协方差矩阵,因此每个视频段中人体行为可由单一协方差矩阵表征,行为特征极其简单且具有协方差矩阵描述子的各种优势。
为了节约内存,加快计算速度,将视频划分为长度为L的连续视频段,为了增强行为识别的鲁棒性,增加样本的多样性,使视频段之间相互重叠,设移动步长为step。对于循环行为,最佳视频段长度为一个完整的行为所需的帧数,至少包含一个完整的行为周期,视频段长度的设置方法与第三章中一致。至于视频段的重叠,是为了应对时间对齐问题的,对于划分视频段,其中行为的起始与终止时间是不确定的,存在随机性。为了使训练样本能尽可能多样化,对视频采取一定程度的重叠划分,移动步长N根据视频长度设置,通常N≤L,以尽量匹配测试样本中的各种情况,提高行为识别准确率。
对于每个视频段,选择梯度光流特征或者外观特征,计算协方差矩阵。每个视频段对应着唯一的特征协方差矩阵,因此该行为特征表示方法非常简洁,大大降低了后续计算复杂度。
3.2 协方差矩阵降维
协方差矩阵可融合不同特征,保持较低的维数,但视频段中人体行为存在多样性,为了改进协方差矩阵的判别能力,同时提高识别理解速度,我们引入基于对称正定矩阵空间的协方差矩阵降维。本节所研究的协方差矩阵降维方法不仅能保留流形的属性又能直接使用现有的基于流形的识别技术,降维后的特征可以保持原始特征之间的关联性,增加数据的鲁棒性以及数据类间离散度和类内聚合度,因而能增加低维特征的判别能力,提高算法的识别准确率。
4 结束语
特征协方差矩阵是一种强有力的数字图像表征形式,可以融合不同特征且维数相对较低,现如今正逐渐运用于人体行为识别领域。我们在综合分析他人行为特征的基础上,重新结合梯度与光流特征,改进梯度光流特征表征运动人体边缘信息和运动特性。同时引入了基于运动人体时空轮廓信息的外观特征。
将视频划分为连续视频段,对视频分段进行密实采用,计算时空立方块特征协方差矩阵。由于协方差矩阵属于黎曼流形空间,为了便于采用欧式空间特性,将协方差矩阵转换为Log-Euclidean空间向量,同时也去除了协方差矩阵中的冗余特征。我们改进了Log-Euclidean词袋模型:采用谱聚类代替传统的聚类算法如k-means进行字典学习,谱聚类操作简单,对聚类数敏感度低,性能优于传统的聚类算法;采用LLC编码代替传统的软/硬编码、稀疏编码等常见编码算法,LLC编码以稀疏编码为基础,但相对于稀疏编码具有更好的重构稳定性,是稀疏平滑的,且具有快速计算方法。结合空间金字塔模型进行特征池化,整合视频中行为特征,采用非线性SVM算法进行行为分类识别。我们在标准行为数据库上采用LOOCV方法进行实验分析,讨论实验参数对行为识别的影响,与其它方法进行对比分析,探讨改进的Log-Euclidean词袋模型法的有效性与不足。
参考文献:
[1]裴启程.基于Kinect的人体行为识别研究[D].南京邮电大学,2018.
[2]孙君凤.基于运动历史图的人体行为识别算法研究[D].山东大学,2018.
[3]张超.基于RealSense的动态手势设计及识别方法研究[D].华中师范大学,2018.
[4]杨萍萍.基于Kinect的手势动作识别研究及其在虛拟仿真系统中的应用[D].南京大学,2018.
[5]敖琳.基于Kinect骨骼信息的人体动作识别与行为分析[D].哈尔滨工程大学,2018.
[6]杨喆.基于无人机平台的目标检测与人机交互算法研究[D].哈尔滨工业大学,2017.
[7]刘小建.基于Kinect的手势识别及其在场景驱动中的应用[D].中北大学,2017.
[8]丁文文.基于三维骨架的时空表示与人体行为识别[D].西安电子科技大学,2017.
[9]李阳.基于深度图像的动作识别及应用研究[D].国防科学技术大学,2016.
转载注明来源:https://www.xzbu.com/1/view-15072437.htm