一种人体姿态估计模型及基于其的人体姿态估计方法

浏览次数：

一种人体姿态估计模型及基于其的人体姿态估计方法(图1)

　　1.一种人体姿态估计模型，其特征在于，由串联的两级网络构成，第一级网络为卷积神

　　经网络，第二级网络为并联的人体区域分割网络、人体关节定位网络和人体肢干定位网络；

　　所述卷积神经网络用于从输入的二维人体图像中提取人体姿态特征图，作为所述人体区域

　　分割网络、所述人体关节定位网络和所述人体肢干定位网络的输入；所述人体区域分割网

　　络输出1份特征图，用于区分人体区域和背景区域；所述人体关节定位网络输出25份特征

　　图，用于定位人体的25个关节；所述人体肢干定位网络输出23份特征图，用于定位两关节之

　　为训练过程中第s次迭代时人体肢干定位网络的损失函数，H(k)表示输入的二维人体图像

　　练过程中第s次迭代时人体第m条肢干的特征图，i表示第i个关节点，m表开云体育官网示第m条肢干，I表

　　2.根据权利要求1所述的人体姿态估计模型，其特征在于，在人体关节定位网络中，C

　　3.根据权利要求2所述的人体姿态估计模型，其特征在于，在人体肢干定位网络中，

　　干的方向；α(k)是标量，表示像素点k属于肢干的置信度，0≤α(k)≤1。

　　步骤2，卷积神经网络提取该二维人体图像中的人体姿态特征图，并分别输入人体区域

　　步骤3，人体区域分割网络输出该二维人体图像中的人体区域分割特征图，人体关节定

　　位网络输出该二维人体图像中每个人所有关节的特征图，人体肢干定位网络输出该二维人

　　步骤4，人体区域分割特征图的概率值大于预设值P的像素点k则判定为人体区域，否则

　　判定为非人体区域；人体关节定位网络分别取特征图概率值最大的前N个点作为每个关节

　　点的N个备选点；人体肢干定位网络分别取置信度特征图概率值最大的前Q条肢干作为每条

　　步骤5，该二维人体图像中任意像素点k的人体区域分割特征图概率值分别与25个关节

　　点特征图概率值相乘用于表征该像素点k既是人体区域又是某关节的概率，取各关节特征

　　步骤6，该二维人体图像中任意像素点k的人体区域分割特征图概率值分别与23条肢干

　　置信度特征图概率值相乘用于表征该像素点k既是人体区域又是某肢干的概率，取各肢干

　　步骤7，比对关节备选点与肢干备选项，若关节备选点与肢干两端点的距离小于预设

　　值，则该关节备选点为关节点，该肢干备选项为肢干，最终得到关节点、肢干及其坐标信息；

　　步骤8，根据得到的关节点和肢干识别结果，完成人体姿态估计，根据坐标信息绘制人

　　一，被广泛应用于人体活动分析、人机交互以及视频监视等方面。人体姿态估计是指通过计

　　算机算法在图像或视频中定位人体关键点，例如肩、肘、腕、髋膝、膝、踝等关节部位。人体姿

　　态估计具有极大的研究意义和实用价值，例如可以用于摔倒监测，可以用于健身、体育和舞

　　蹈等项目教学。在机器人训练领域，人体姿态估计技术能够让机器人“学会”移动自己的关

　　节；在常见的电影特效制作以及交互游戏中，人体姿态估计技术用来追踪人体运动，以实现

　　基于其的人体姿态估计方法，相比于现有人体姿态估计方法，能够快速准确地得到人体姿

　　神经网络，第二级网络为并联的人体区域分割网络、人体关节定位网络和人体肢干定位网

　　所述人体区域分割网络输出1份特征图，用于区分人体区域和背景区域，所述人体

　　关节定位网络输出25份特征图，用于定位人体的25个关节，所述人体肢干定位网络输出23

　　二维人体图像中的像素点k为人体区域的概率，表示训练过程中第s次迭代时人体第i

　　个关节的特征图，表示训练过程中第s次迭代时人体第m条肢干的特征图，i表示第i个

　　关节点，m表示第m条肢干，I表示人体关节点总数量，M表示人体肢干总数量。

　　表示第w个关节的位置坐标。显然，越靠近关节，该特征图的值越接近1，越远离关节，该特征

　　其中v(k)是一个二维单位向量，表示第m条肢干的方向；α(k)是标量，表示像素点k属于肢干

　　步骤2，卷积神经网络提取该二维人体图像中的人体姿态特征图，并分别输入人体

　　步骤3，人体区域分割网络输出该二维人体图像中的人体区域分割特征图，人体关

　　节定位网络输出该二维人体图像中每个人所有关节的特征图，人体肢干定位网络输出该二

　　步骤4，人体区域分割特征图的概率值大于预设值P的像素点k则判定为人体区域，

　　否则判定为非人体区域；人体关节定位网络分别取特征图概率值最大的前N个点作为每个

　　关节点的N个备选点；人体肢干定位网络分别取置信度特征图概率值最大的前Q条肢干作为

　　步骤5，该二维人体图像中任意像素点k的人体区域分割特征图概率值分别与25个

　　关节点特征图概率值相乘用于表征该像素点k既是人体区域又是某关节的概率，取各关节

　　步骤6，该二维人体图像中任意像素点k的人体区域分割特征图概率值分别与23条

　　肢干置信度特征图概率值相乘用于表征该像素点k既是人体区域又是某肢干的概率，取各

　　步骤7，比对关节备选点与肢干备选项，若关节备选点与肢干两端点的距离小于预

　　设值，则该关节备选点为关节点，该肢干备选项为肢干，最终得到关节点、肢干及其坐标信

　　步骤8，根据得到的关节点和肢干识别结果，完成人体姿态估计，根据坐标信息绘

　　本发明的有益效果：1、将人体区域分割网络与人体关节定位网络、人体肢干定位

　　网络相结合，以三个网络损失函数的累加和作为整个估计模型的优化目标函数，从而无需

　　对多次迭代得到的损失结果进行叠加处理；2、在人体肢干定位网络中增加置信度特征图的

　　提取，相比于现有网络，能够从同样的输入图片中获取更多信息，提高识别的准确率；3人体姿态估计模型、网

　　络后处理流程，可以在网络运行后，根据提取到的特征得到姿态估计结果，可以一定程度上

　　为了示例和描述起见而给出的，而并不是无遗漏的或者将本发明限于所公开的形式。很多

　　修改和变化对于本领域的普通技术人员而言是显而易见的。选择和描述实施例是为了更好

　　说明本发明的原理和实际应用，并且使本领域的普通技术人员能够理解本发明从而设计适

　　一种人体姿态估计模型，如图1所示，由串联的两级网络构成，第一级网络为卷积

　　神经网络，第二级网络为并联的人体区域分割网络、人体关节定位网络和人体肢干定位网

　　络。图2为人体关键关节点及关键肢干示意图，图示中有25个关键关节点和23个关键肢干。

　　所述人体区域分割网络输出1份特征图，用于区分人体区域和背景区域；所述人体

　　关节定位网络输出25份特征图，用于定位人体的25个关节；所述人体肢干定位网络输出23

　　份特征图，用于定位两关节之间的23条肢干。当二维输入图像中的人体存在遮挡关系时，一

　　二维人体图像中的像素点k为人体区域的概率，表示训练过程中第s次迭代时人体第i

　　个关节的特征图，表示训练过程中第s次迭代时人体第m条肢干的特征图，i表示第i

　　个关节点，m表示第m条肢干，I表示人体关节点总数量，M表示人体肢干总数量。

　　络、人体肢干定位网络相结合，以三个网络损失函数的累加和作为整个估计模型的优化目

　　H(k)表示输入的二维人体图像中的像素点k为人体区域的概率，为保证H(k)在0～

　　1之间，对其神经网络的上一层输出进行sigmoid处理，即其中H(k)表示人

　　体区域分割网络在输出H(k)前一层的输出。人体区域分割网络的设置，可以将关节、肢干定

　　个关节的位置坐标。显然，越靠近关节，该特征图的值越接近1，越远离关节，该特征图的值

　　是一个二维单位向量，表示第m条肢干的方向；α(k)是标量，表示像素点k属于肢干的置信

　　表示肢干向量在y方向上的坐标值，用归一化的激活函数将向量大小归一化为1，计

　　步骤1，向上述人体姿态估计模型中输入待处理的图3，图3近景中能够识别的有5

　　步骤2，卷积神经网络提取该二维人体图像中的人体姿态特征图，并分别输入人体

　　步骤3，人体区域分割网络输出该二维人体图像中的人体区域分割特征图(即任意

　　像素点k为人体区域的概率)，人体关节定位网络输出该二维人体图像中每个人所有关节的

　　特征图，人体肢干定位网络输出该二维人体图像中每个人所有肢干的方向特征图和置信度

　　步骤4，人体区域分割特征图的概率值大于预设值P的像素点k则判定为人体区域，

　　否则判定为非人体区域；人体关节定位网络分别取特征图概率值最大的前N个点作为每个

　　关节点的N个备选点；人体肢干定位网络分别取置信度特征图概率值最大的前Q条肢干作为

　　步骤5，该二维人体图像中任意像素点k的人体区域分割特征图概率值分别与25个

　　关节点特征图概率值相乘用于表征该像素点k既是人体区域又是某关节的概率，取各关节

　　步骤6，该二维人体图像中任意像素点k的人体区域分割特征图概率值分别与23条

　　肢干置信度特征图概率值相乘用于表征该像素点k既是人体区域又是某肢干的概率，取各

　　步骤7，比对关节备选点与肢干备选项，若关节备选点与肢干两端点的距离小于预

　　设值，则该关节备选点为关节点，该肢干备选项为肢干，最终得到关节点、肢干及其坐标信

　　步骤8，根据得到的关节点和肢干识别结果，完成人体姿态估计，根据坐标信息绘

　　基于步骤4‑7的后处理流程，可以在网络模型运行后，根据提取到的特征得到姿态

　　估计结果，可以一定程度上降低模型运行次数。注意，上述P、Q、R、U均根据实际需要进行设

　　显然，所描述的实施例仅仅是本发明的一部分实施例，而不是全部的实施例。基于

　　本发明中的实施例，本领域及相关领域的普通技术人员在没有作出创造性劳动的前提下所

2026-06

深度学习中的人体姿态估计概述

返回列表

基于mediapipe的人体姿态估计模型

开云体育官方网站-（Kaiyun Sports）

一种人体姿态估计模型及基于其的人体姿态估计方法