开云体育官方网站-(Kaiyun Sports)

公司新闻
NEWS

新闻中心

基于个体模型生成的人体姿态识别方法pdf

浏览次数:

  

基于个体模型生成的人体姿态识别方法pdf(图1)

  本发明公开了一种基于个体模型生成的人体姿态识别方法,首先从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式生成输入图片对应的视觉特征;再采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征图;然后采用实例级别的姿态解析模型生成器针对每个人体生成用于解析人体姿态的模型参数图;最后根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿态识别结果。本发明针对图像中出现的人体动态地生成对应的估计参数,能够更好地解决现实场景中人体姿态丰富和人体间差异大的问题。

  (19)国家知识产权局 (12)发明专利 (10)授权公告号 CN 113221824 B (45)授权公告日 2022.05.24 (21)申请号 1.6 G06V 10/46 (2022.01) G06V 10/74 (2022.01) (22)申请日 2021.05.31 G06V 10/80 (2022.01) (65)同一申请的已公布的文献号 G06V 10/82 (2022.01) 申请公布号 CN 113221824 A G06N 3/04 (2006.01) (43)申请公布日 2021.08.06 G06N 3/08 (2006.01) G06K 9/62 (2022.01) (73)专利权人 之江实验室 地址 311100 浙江省杭州市余杭区文一西 审查员 龚红丽 路1818号 (72)发明人 王轩瀚周宜暄宋井宽高联丽 程乐超 (74)专利代理机构 北京正华智诚专利代理事务 所(普通合伙) 11870 专利代理师 李林合 (51)Int.Cl. G06V 40/10 (2022.01) 权利要求书3页 说明书7页 附图1页 (54)发明名称 基于个体模型生成的人体姿态识别方法 (57)摘要 本发明公开了一种基于个体模型生成的人 体姿态识别方法,首先从待识别图像中获取输入 图片,并采用视觉特征提取器通过卷积编码的方 式生成输入图片对应的视觉特征;再采用全局语 义感知网络通过线性回归的方式从视觉特征中 解析得到人体区域特征图;然后采用实例级别的 姿态解析模型生成器针对每个人体生成用于解 析人体姿态的模型参数图;最后根据人体区域特 征图和模型参数图动态解析图像中的人体姿态, 得到人体姿态识别结果。本发明针对图像中出现 的人体动态地生成对应的估计参数,能够更好地 解决现实场景中人体姿态丰富和人体间差异大 B 的问题。 4 2 8 1 2 2 3 1 1 N C CN 113221824 B 权利要求书 1/3页 1.基于个体模型生成的人体姿态识别方法,其特征在于,包括以下步骤: S1、从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式生成 输入图片对应的视觉特征; S2、采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域特征 图; S3、根据视觉特征和人体区域特征图,采用实例级别的姿态解析模型生成器针对每个 人体生成用于解析人体姿态的模型参数图; S4、根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿态识 别结果; 所述步骤S1包括以下分步骤: S11、从待识别图像中获取大小为H×W的输入图片 其中 表示维度为3 ×H×W的实数域,3表示RGB三个通道; S12、通过卷积神经网络的视觉编码器提取得到输入图片对应的视觉特征 其中D表示视觉特征中特征图的个数,每张特征图的大小为H ×W ; f f 所述步骤S2具体为:采用全局语义感知网络通过线性回归的方式从视觉特征F中解析 得到人体区域特征图 其表达式为: M=FW v 其中 为线性变换的参数,用于将每个像素的D维特征映射成1维向量,人体区 域特征图M上的每个点指代该像素点是否在人体关键点的区域内; 所述步骤S3包括以下分步骤: S31、根据视觉特征F和人体区域特征图M,采用实例信息编码器得到人体的身份特征 S32、根据身份特征E,采用解析参数动态生成器生成用于解析人体姿态的模型参数图 其中K表示每个人体的关键点数量; 所述步骤S31包括以下分步骤: S311、通过实例感知网络的全局池化层将输入的视觉特征F映射成全局特征 S312、根据全局特征A估计待识别图像中的人体数量: 其中 和 为两个线性转换矩阵,Φ(·)表示非线性的LeakyReLU激活 函数, 表示1维的人体数量估计结果,指代图像中可能包含的人体个数; S313、根据人体区域特征图M上的概率值,通过双线性插值的方式将参数 映射回人 体区域特征图M,得到初始的实例感知特征 S314、根据初始的实例感开云体育官网知特征 通过非线性变换方式得到人体的身份特征 其表达式为: 2 2 CN 113221824 B 权利要求书 2/3页 其中W 为变换参数; I 所述步骤S32包括以下分步骤: S321、将视觉特征F和身份特征E进行融合,得到包含实例特性的视觉特征 其表达式为: V=Γ(F,E) 其中Γ(·)为特征拼接函数; S322、根据包含实例特性的视觉特征V,通过非线性变换方式得到用于解析人体姿态的 模型参数图 其表达式为: 1 2 W =Φ(VW )W p t t 其中 和 为两个线性转换矩阵; 所述步骤S4包括以下分步骤: S41、通过设定阈值对人体区域特征图M进行过滤,得到由N 个像素点组成的人体区域 p 其中L表示第c个人体区域像素点的位置; c S42、根据人体区域 计算得到像素点之间的身份特征相似度矩阵 其中 第i个像素点和第j个像素点之间的相似度S 的计算公式为: ij T S =φ(L L) ij i j 其中φ(·)为sigmoid激活函数,用于将相似度映射到[0,1]的范围内,L 和L 分别表示 i j 第i个和第j个人体区域像素点的位置,i=1,2,...,N ;j=1,2,...,N ; p p S43、通过阈值过滤的方式将相似度矩阵S中大于0.5的元素置为1,得到N 个初始的人体 p 区域二值图; S44、计算人体区域二值图中每两个人体区域的交并比: 其中IoU 表示第d个人体区域和第e个人体区域的交并比,S 表示第i个像素点和第t个 de it 像素点之间的相似度,S 表示第j个像素点和第t个像素点之间的相似度; jt S45、当两个人体区域的交并比大于预设交并比阈值时,将这两个人体区域合并,得到NA 个人体区域 其中N N ; A p S46、通过位置索引的方式将各个人体区域M映射回人体区域特征图M大小,得到N个区 A 域二值图 S47、根据区域二值图 计算得到N 个实例的解析参数 其表达式为: A 3 3 CN 113221824 B 权利要求书 3/3页 S48、根据解析参数 从包含实例特性的视觉特征V中解析出N 个人体的关键点热力图 A 其表达式为: S49、将每个关键点热力图的最大值对应的位置作为关键点的预测值,得到人体姿态识 别结果。 2.根据权利要求1所述的人体姿态识别方法,其特征在于,所述人体姿态识别方法的学 习目标函数为: L=αl+βl+θl m k o 其中α,β和θ均为超参数,l ,l ,l 均为中间参数且: m k o 其中MSE(·)表示均方误差函数,M表示人体区域特征图, 表示人体区域特征图的真 值,H 表示第g个关键点热力图, 表示第g个关键点热力图的真值,O表示人体数量估计结 g 果, 表示人体数量估计结果的线页 基于个体模型生成的人体姿态识别方法 技术领域 [0001] 本发明属于计算机视觉技术领域,具体涉及一种基于个体模型生成的人体姿态识 别方法的设计。 背景技术 [0002] 人体姿态估计是计算机视觉中一个基础而又富有挑战性的问题,其目的是从单张 RGB图像中,精确地识别出多个人体的位置以及骨架上的稀疏的关键点位置。随着深度卷积 神经网络(CNNs)的应用和MSCOCO等大规模数据集的发布,人体姿态估计方法已经取得了较 大的发展,它们大致可以分为bottom‑up(即自底向上)和top‑down(即自顶向下)的方法。对 于top‑down的方法,首先定位所有人体实例,然后对每个人体实例做姿态估计,方法主要集 中在如何设计高效的单人姿态估计方法。而bottom‑up方法首先检测出所有的人体关键点, 然后将它们分组到不同的人体实例,现有方法主要集中在如何将候选的关节点分组到单个 人体实例。相较于需要人体检测的top‑down方法,bottom‑up的方法通常具有更好的估计效 率,且保持相近的估计准确度。 [0003] 现有的人体姿态估计方法虽然在姿态估计的任务上取得了进展,但仍面临以下缺 陷: [0004] (1)top‑down方法采用检测器的方式来区分人体,由于这类方法会采用到人体检 测模型和人体关键点检测模型这两个模型,会带来巨额的计算代价,不利于现实场景中的 应用。 [0005] (2)bottom‑up方法采用卷积神经网络来生成身份特征进而区分人体,这类方法仅 关注像素的表征而缺乏对全图人体数量的感知,每张图像所包含的人体数量不一致。针对 人体姿态估计方法应当根据人体数量来生成对应的人体身份特征,而现有的方法没有考虑 这个先验。 [0006] (3)现有的人体姿态估计方法采用统一的卷积神经网络参数来解析人体,难以应 对现实场景中人体姿态丰富和人体间差异大的问题。每个人体实例需要特定的解析参数, 而现有的方法忽略了这一点。 发明内容 [0007] 本发明的目的是为了解决现有人体姿态估计方法存在的上述问题,提出了一种基 于个体模型生成的人体姿态识别方法,基于bottom‑up的方法进行扩展,依据图像内容动态 地生成姿态估计的模型,进而精准地针对图像中的每个人体进行姿态估计。 [0008] 本发明的技术方案为:基于个体模型生成的人体姿态识别方法,包括以下步骤: [0009] S1、从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式 生成输入图片对应的视觉特征; [0010] S2、采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域 特征图。 5 5 CN 113221824 B 说明书 2/7页 [0011] S3、根据视觉特征和人体区域特征图,采用实例级别的姿态解析模型生成器针对 每个人体生成用于解析人体姿态的模型参数图。 [0012] S4、根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿 态识别结果。 [0013] 进一步地,步骤S1包括以下分步骤: [0014] S11、从待识别图像中获取大小为H×W的输入图片 其中 表示维度 为3×H×W的实数域,3表示RGB三个通道。 [0015] S12、通过卷积神经网络的视觉编码器提取得到输入图片对应的视觉特征 其中D表示视觉特征中特征图的个数,每张特征图的大小为H ×W 。 f f [0016] 进一步地,步骤S2具体为:采用全局语义感知网络通过线性回归的方式从视觉特 征F中解析得到人体区域特征图 其表达式为: [0017] M=FW v [0018] 其中 为线性变换的参数,用于将每个像素的D维特征映射成1维向量,人 体区域特征图M上的每个点指代该像素点是否在人体关键点的区域内。 [0019] 进一步地,步骤S3包括以下分步骤: [0020] S31、根据视觉特征F和人体区域特征图M,采用实例信息编码器得到人体的身份特 征 [0021] S32、根据身份特征E,采用解析参数动态生成器生成用于解析人体姿态的模型参 数图 其中K表示每个人体的关键点数量。 [0022] 进一步地,步骤S31包括以下分步骤: [0023] S311、通过实例感知网络的全局池化层将输入的视觉特征F映射成全局特征 [0024] S312、根据全局特征A估计待识别图像中的人体数量: [0025] [0026] 其中 和 为两个线性转换矩阵,Φ(·)表示非线性的LeakyReLU 激活函数, 表示1维的人体数量估计结果,指代图像中可能包含的人体个数。 [0027] S313、根据人体区域特征图M上的概率值,通过双线性插值的方式将参数 映射 回人体区域特征图M,得到初始的实例感知特征 [0028] S314、根据初始的实例感知特征 通过非线性变换方式得到人体的身份特征 其表达式为: [0029] [0030] 其中W 为变换参数。 I [0031] 进一步地,步骤S32包括以下分步骤: [0032] S321、将视觉特征F和身份特征E进行融合,得到包含实例特性的视觉特征 其表达式为: 6 6 CN 113221824 B 说明书 3/7页 [0033] V=Γ(F,E) [0034] 其中Γ(·)为特征拼接函数。 [0035] S322、根据包含实例特性的视觉特征V,通过非线性变换方式得到用于解析人体姿 态的模型参数图 其表达式为: [0036] 1 2 W =Φ(VW )W p t t [0037] 其中 和 为两个线、通过设定阈值对人体区域特征图M进行过滤,得到由N 个像素点组成的人体 p 区域 其中L表示第c个人体区域像素点的位置。 c [0040] S42、根据人体区域 计算得到像素点之间的身份特征相似度矩阵 其中第i个像素点和第j个像素点之间的相似度S 的计算公式为: ij [0041] T S =φ(L L) ij i j [0042] 其中φ(·)为sigmoid激活函数,用于将相似度映射到[0,1]的范围内,L 和L 分别 i j 表示第i个和第j个人体区域像素点的位置,i=1,2,...,N ;j=1,2,...,N 。 p p [0043] S43、通过阈值过滤的方式将相似度矩阵S中大于0.5的元素置为1,得到N 个初始 p 的人体区域二值图。 [0044] S44、计算人体区域二值图中每两个人体区域的交并比: [0045] [0046] 其中IoU 表示第d个人体区域和第e个人体区域的交并比,S 表示第i个像素点和 de it 第t个像素点之间的相似度,S 表示第j个像素点和第t个像素点之间的相似度。 jt [0047] S45、当两个人体区域的交并比大于预设交并比阈值时,将这两个人体区域合并, 得到N个人体区域 其中N N 。 A A p [0048] S46、通过位置索引的方式将各个人体区域M映射回人体区域特征图M大小,得到 N 个区域二值图 A [0049] S47、根据区域二值图 计算得到N 个实例的解析参数 其表达 A 式为: [0050] [0051] S48、根据解析参数 从包含实例特性的视觉特征V中解析出N个人体的关键点热 A 力图 其表达式为: [0052] [0053] S49、将每个关键点热力图的最大值对应的位置作为关键点的预测值,得到人体姿 7 7 CN 113221824 B 说明书 4/7页 态识别结果。 [0054] 进一步地人体姿态识别图,人体姿态识别方法的学习目标函数为: [0055] L=αl+βl+θl m k o [0056] 其中α,β和θ均为超参数,l ,l ,l 均为中间参数且: m k o [0057] [0058] [0059] [0060] 其中MSE(·)表示均方误差函数,M表示人体区域特征图, 表示人体区域特征图 的真值,H表示第g个关键点热力图, 表示第g个关键点热力图的真值,O表示人体数量估 g 计结果, 表示人体数量估计结果的线] 本发明的有益效果是: [0062] (1)本发明区别于现有的身份特征生成方式,即仅依赖于视觉特征,所提出的方法 则是通过编码视觉信息与图像的人体计数信息来生成对应的身份特征,能够更有效地区分 实例。 [0063] (2)本发明区别于现有方法采用固定的参数来解析人体姿态的方式,针对图像中 出现的人体动态地生成对应的估计参数,能够更好地解决现实场景中人体姿态丰富和人体 间差异大的问题。 [0064] (3)本发明基于bottom‑up的方法进行扩展,依据图像内容动态地生成姿态估计的 模型,进而精准地针对图像中的每个人体进行姿态估计,实验表明本发明相比于现有人体 姿态估计方法计算代价更小且精确度更高。 附图说明 [0065] 图1所示为本发明实施例提供的基于个体模型生成的人体姿态识别方法流程图。 [0066] 图2所示为本发明实施例提供的基于个体模型生成的人体姿态识别方法框架图。 具体实施方式 [0067] 现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和 描述的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范 围。 [0068] 本发明实施例提供了一种基于个体模型生成的人体姿态识别方法,如图1~图2共 同所示,包括以下步骤S1~S4: [0069] S1、从待识别图像中获取输入图片,并采用视觉特征提取器通过卷积编码的方式 生成输入图片对应的视觉特征; [0070] 步骤S1包括以下分步骤S11~S12: [0071] S11、从待识别图像中获取大小为H×W的输入图片 其中 表示维度 为3×H×W的实数域,3表示RGB三个通道。 8 8 CN 113221824 B 说明书 5/7页 [0072] S12、通过卷积神经网络的视觉编码器提取得到输入图片对应的视觉特征 其中D表示视觉特征中特征图的个数,每张特征图的大小为H ×W 。 f f [0073] S2、采用全局语义感知网络通过线性回归的方式从视觉特征中解析得到人体区域 特征图。 [0074] 本发明实施例中,采用全局语义感知网络通过线性回归的方式从视觉特征F中解 析得到人体区域特征图 其表达式为: [0075] M=FW v [0076] 其中 为线性变换的参数,用于将每个像素的D维特征映射成1维向量,人 体区域特征图M上的每个点指代该像素点是否在人体关键点的区域内。 [0077] S3、根据视觉特征和人体区域特征图,采用实例级别的姿态解析模型生成器针对 每个人体生成用于解析人体姿态的模型参数图。 [0078] 步骤S2完成了如何确定图像中的人体区域,但本发明的目标是对该区域的每个人 体进行姿态识别。基于此,需要针对每个人体的信息来生成对应的姿态解析参数。为了实现 动态的人体解析,本发明实施例设计了实例级别的姿态解析模型生成器。 [0079] 步骤S3包括以下分步骤S31~S32: [0080] S31、根据视觉特征F和人体区域特征图M,采用实例信息编码器得到人体的身份特 征 [0081] 本发明实施例中,为了确定每个像素属于图片中的哪个人体,需要得到对应人体 的身份特征,因此步骤S31包括以下分步骤S311~S314: [0082] S311、通过实例感知网络的全局池化层将输入的视觉特征F映射成全局特征 [0083] S312、根据全局特征A估计待识别图像中的人体数量: [0084] [0085] 其中 和 为两个线性转换矩阵,Φ(·)表示非线性的LeakyReLU 激活函数, 表示1维的人体数量估计结果,指代图像中可能包含的人体个数。 [0086] S313、因为任何图像的人体个数均能通过参数 进行解析估计,所以该参数具有 很强的实例感知信息,基于此,本发明实施例根据人体区域特征图M上的概率值,通过双线 性插值的方式将参数 映射回人体区域特征图M,得到初始的实例感知特征 [0087] S314、根据初始的实例感知特征 通过非线性变换方式得到人体的身份特征 其表达式为: [0088] [0089] 其中W 为变换参数。 I [0090] S32、根据身份特征E,采用解析参数动态生成器生成用于解析人体姿态的模型参 数图 其中K表示每个人体的关键点数量。 [0091] 步骤S32包括以下分步骤S321~S322: [0092] S321、将视觉特征F和身份特征E进行融合,得到包含实例特性的视觉特征 9 9 CN 113221824 B 说明书 6/7页 其表达式为: [0093] V=Γ(F,E) [0094] 其中Γ(·)为特征拼接函数。 [0095] S322、根据包含实例特性的视觉特征V,通过非线性变换方式得到用于解析人体姿 态的模型参数图 其表达式为: [0096] 1 2 W =Φ(VW )W p t t [0097] 其中 和 为两个线、根据人体区域特征图和模型参数图动态解析图像中的人体姿态,得到人体姿 态识别结果。 [0099] 步骤S4包括以下分步骤S41~S49: [0100] S41、通过设定阈值对人体区域特征图M进行过滤,得到由N 个像素点组成的人体 p 区域 其中L表示第c个人体区域像素点的位置。本发明实施例中,设定阈值为0.5。 c [0101] S42、根据人体区域 计算得到像素点之间的身份特征相似度矩阵 其中第i个像素点和第j个像素点之间的相似度S 的计算公式为: ij [0102] T S =φ(L L) ij i j [0103] 其中φ(·)为sigmoid激活函数,用于将相似度映射到[0,1]的范围内,L 和L 分别 i j 表示第i个和第j个人体区域像素点的位置,i=1,2,...,N ;j=1,2,...,N 。 p p [0104] S43、通过阈值过滤的方式将相似度矩阵S中大于0.5的元素置为1,得到N 个初始 p 的人体区域二值图。 [0105] S44、计算人体区域二值图中每两个人体区域的交并比: [0106] [0107] 其中IoU 表示第d个人体区域和第e个人体区域的交并比,S 表示第i个像素点和 de it 第t个像素点之间的相似度,S 表示第j个像素点和第t个像素点之间的相似度。 jt [0108] S45、当两个人体区域的交并比大于预设交并比阈值时,将这两个人体区域合并, 得到N个人体区域 其中N N 。 A A p [0109] S46、通过位置索引的方式将各个人体区域M映射回人体区域特征图M大小,得到 N 个区域二值图 A [0110] S47、根据区域二值图 计算得到N 个实例的解析参数 其表达 A 式为: [0111] [0112] S48、根据解析参数 从包含实例特性的视觉特征V中解析出N 个人体的关键点热 A 10 10 CN 113221824 B 说明书 7/7页 力图 其表达式为: [0113] [0114] S49、将每个关键点热力图的最大值对应的位置作为关键点的预测值,得到人体姿 态识别结果。 [0115] 本发明实施例针对人体姿态识别方法设计了合理的学习目标,以使得提出的模型 能够对给定的待识别图片进行多人的姿态估计。给定一张图片,本发明方法将输出三种类 型的热力图:(1)人体区域特征图M;(2)人体数量估计结果O;(3)关键点热力图H。 [0116] 具体而言,本发明方法的目标是增强每个人体的关键点热力图H中的目标关键点 响应,同时保证人体区域特征图M中所有人体关键点的区域处于激活状态。为了实现这一学 习目标,本发明实施例使用均方误差(MSE)作为学习目标,定义如下: [0117] [0118] [0119] [0120] 其中MSE(·)表示均方误差函数, 表示人体区域特征图的真值,其包含所有人体 的目标关键点区域的二值图; 表示第g个关键点热力图的真值,其仅包含针对特定人体 的关键点的单峰高斯分布,表示人体数量估计结果的线] 因此,整个模型的学习目标计算如下: [0122] L=αl+βl+θl m k o [0123] 其中α,β和θ均为超参数,在训练中均设置为1。 [0124] 本领域的普通技术人员将会意识到,这里所述的实施例是为了帮助读者理解本发 明的原理,应被理解为本发明的保护范围并不局限于这样的特别陈述和实施例。本领域的 普通技术人员可以根据本发明公开的这些技术启示做出各种不脱离本发明实质的其它各 种具体变形和组合,这些变形和组合仍然在本发明的保护范围内。 11 11 CN 113221824 B 说明书附图 1/1页 图1 图2 12 12

  2、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问加。

  3、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。

  4、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

  2025年重庆事业单位招聘考试(测绘管理相关专业)历年参考题库含答案详解(5套).docx

  T∕TAF 268.5-2025 生成式人工智能个人信息保护技术要求 第5部分:二次开发管理.docx

  原创力文档创建于2008年,本站为文档C2C交易模式,即用户上传的文档直接分享给其他用户(可下载、阅读),本站只是中间服务平台,本站所有文档下载所得的收益归上传人所有。原创力文档是网络服务平台方,若您的权利被侵害,请发链接和相关诉求至 电线) ,上传者

电话:

0557-8103355

邮箱:

56987742032@qq.com

地址:

安徽省宿州市砀山县周寨镇

Copyright © 2026 开云体育股份发展有限公司 版权所有    备案号:皖ICP备2025075536号