End-to-End Human Pose and Mesh Reconstruction with Transformers
https://openaccess.thecvf.com/content/CVPR2021/papers/Lin_End-to-End_Human_Pose_and_Mesh_Reconstruction_with_Transformers_CVPR_2021_paper.pdf
确定人体中一定数量关键点的位置坐标。
可以分为 2D 和 3D(含深度)的人体姿态估计。
输入:包含人体的图片(RGB / RGBD)、图像/视频、单目/多目、单人/多人。
输出:3D Pose 骨骼;网格重建。
估计形式:基于骨架、轮廓、体积。
常用数据集:3DPW、MPII、Human3.6M。
评价指标:MP(J/V)PE 平均欧式距离。PCK 以头部长度作为归一化参考,检测距离小于设定阈值的比例。
主要方法:① 基于模型的方法 SMPL 等,输出预测的pose、shape等参数。 ② 基于坐标的方法,如 heatmap 等,可以反映图想到某个关键点的 2D 或 3D 距离。
SMPL:定义人体的形状(胖瘦高矮)和人体动作姿态。因而分别定义 Pose(beta) 和 Shape(theta) 来控制人体的运动体姿变化。
2D-CNN 的 backbone 网络提取图像特征 → 预测 heatmap