
本发明专利技术提供一种基于改进HigherHRNet的人体姿态估计方法,将HigherHRNet做了相关的改进,更加精准的定位图像中小人体和拥挤环境下的人体。包括:步骤一、设计一种新的开云体育官方入口通道增强特征提取网络,旨在解决多尺度特征融合时通道信息丢失问题;步骤二、设计一种基于CBAM的改进轻量级注意力机制,将通道注意力机制应用到每次融合之后生成的新特征图上,以解决多尺度特征融合时产生的混叠效应;将该注意力机制应用到网络末端,优化将要去预测热图的最终特征图,让网络对于人体难被检测到的关键点更加敏感;步骤三、引入Dupsampling并设计优化的热图聚合策略,生成与输入图像分辨率一致的预测热图,能够恢复出低分辨率热图中丢失的小人体关键点,加强网络对小尺度人体感知能力。加强网络对小尺度人体感知能力。加强网络对小尺度人体感知能力。
[0002]人体姿态估计涵盖了机器学习、计算机视觉、图像处理和人机交互等众多科学领域,有着广泛的应用前景和巨大的经济价值。随着人工智能和深度学习的飞速发展,人们开始尝试着使用计算机视觉方法去处理、分析和理解图像、视频中的内容,模拟人类视觉感官实现图像、视频的检测,如行为识别,它指的是通过相关算法对图像或视频中的人体行为进行识别。而人体姿态估计恰恰可以作为行为识别的前置算法,为它提供基础的人体关键点的信息人体姿态估计技术。在现有的行为识别算法中,有许多都是依靠人体姿态估计算法来实现的,比如把人体关键点当成图模型中的节点,骨骼之间的连线当成图模型中的节点之间的联系,然后使用GCN来整合所有的关节点信息来做动作行为识别。人体姿态估计取得了突破性的进展,成果显著。[0003]人体姿态估计的主要任务是对给定的图像或视频中人体关节点进行检测,输出人体肢体的相关信息,如各关节点位置以及对应类别
1.一种基于改进HigherHRNet的人体姿态估计方法,其特征在于,包括如下的步骤:步骤一、设计一种新的通道增强特征提取网络,该特征提取网络研究如何在不大幅增加计算量的同时,用少量计算负担即可解决多尺度特征融合时产生的通道信息丢失的问题;步骤二、设计一种基于CBAM的改进轻量级注意力机制,将通道注意力机制应用到每次融合之后生成的新特征图上,来优化每次融合之后的特征图,以消除多尺度特征融合之后产生的混叠效应影响;将通道和空间混合注意力机制应用到网络末端,以优化将要去预测热图的最终特征图,让网络对于人体难被检测到的关键点更加敏感,并且可以缓解模型的错检问题;步骤三、针对HigherHRNet对于小人体尺度感知能力不强的问题,引入一种代替转置卷积的上采样方法,来生成与输入图像分辨率一致的预测热图,同时设计一个优化的热图聚合策略,能够恢复出在低分辨率热图中丢失的小尺度人体的关键点,加强网络的尺度感知能力,使得网络对于小人体的检测性能提高。2.根据权利要求1所述的一种基于改进HigherHRNet的人体姿态估计方法,,其特征在于,所述的步骤一中,所述新的通道增强特征提取网络的设计包括如下:使用Sub_Pixel Conv来代替HigherHRNet中的1*1卷积降低通道数和最近邻插值的上采样方法,Sub_Pixel Conv又称Pixel Shuffle,能够将形状为H1×W1×C1·r2的特征图转换成形状为rH2×rW2×C2的特征图,其中H表示该特征图的高度,W表示该特征图的宽度,C代表通道,H1表示转换前该特征图的高度,W1表示转换前该特征图的宽度,C1代表转换前通道,H2表示转换后该特征图的高度,W2表示转换后该特征图的宽度,C2代表转换后通道,公式在数学上可以定义为:PS(F)x,y,c=F[x/r],[y/r],C·r·mod(y,r)+C·mod(x,r)+c其中r为放大因子,F是输入的特征,表示坐标为(x,y,c)上的输出特征像素;x表示输出特征图高度方向上的坐标,y表示输出特征图宽度方向上的坐标,c代表输出特征图通道方向的坐标;多尺度亚像素跳跃连接融合利用低分辨率特征图Ci中丰富的通道信息,将其合并到Fi中,公式如下所示:其中,表示的应用于减少通道的1×1卷积,i为高分辨率子网的索引,为通道变换,将亚像素卷积的缩放因子r为2,以此来进行多尺度特征融合;基于sub_pixel conv提出多尺度亚像素跳跃连接融合方法,首先通过Sub_Pixel Conv生成高分辨率特征图,之后引入跳跃连接,将前一阶段的特征图与生成的新特征图再次进行融合,二者特征重复交叠混合,保证网络可以兼顾空间位置信息和特征抽象信息并且可以增强网络特征信息传播能力以及降低训练的难度。3.根据权利要求1所述的一种基于改进HigherHRNet的人体姿态估计方法,,其特征在于,所述的步骤二中,所述基于CBAM的改进轻量级注意力机制的设计包括如下:为了消除多尺度特征融合时特征图产生的混叠效应,在多尺度特征融合时,提出了一个轻量级的通道注意力机制CAEM,取消原始CBAM中通道注意力机制的共享多层感知机mlp,选择分别用两个全连接层并行进行最大池化操作和全局平均池化操作来代替mlp,因为两种操作得到的特征各有不同,出于计算量的考量用两个全连接层分别处理即可;CAEM利用特征通道之间的关系生成通道注意力图,由于特征图的每个通道都可以被看做特征检测器,CAEM的实际本质就是想要通道注意力机制就是关注这张输入图像上哪些内容是有...