Technology

3wk_Human Pose Estimation (HPE)

뉴욕킴 2024. 3. 23. 11:45

Human Pose Estimation

사람의 관절이나 중요 신체부위를 keypoint로 지정하여 사람의 자세를 예측하는 기술입니다. 해외에서 활발하게 연구되고 있는 Human Pose Estimation은 국내에서는 아직 생소한 기술입니다

  • 사용처: AR/VR, Healthcare, Autonomous driving, Surveillance, Sports

 

By number of subjects(사람에 수에 따라 나눔)


1) Single-person pose estimation / 1명
• Regression to spatial coordinates
• Heatmap representation for joint location prediction → 히트맵을 만들어 확률을 구함 ex. 오른쪽 팔꿈치 일 확률이 높다

 

2) Multi-person pose estimation / 여러명
• Top-down: Detect individuals first, then estimate poses

→ 이미지 주어지면 각각 사람에 대한 포즈를 분석

• Bottom-up: Detect all body joints, then assemble into individual poses.

→ 포즈들을 먼저 찾기(관절들 찾기) → 조합하여 사람을 찾음

 


By dimensionality

• 2D pose estimation

• 3D pose estimation

 


DeepPose (2014) / 처음으로 딥러닝을 적용함

  • First approach to apply deep learning to HPE
  • Single-person pose estimation & Regression problem

 

Stage 1: Initial joint prediction (조인되는 x,y를 다 찾음)

• Preprocessing: Extract human region à Resize to 220×220 pixels

• CNN-based model: AlexNet (2012)

• Directly predicts the normalized coordinates (x, y) for each joint (e.g., k joints)

• Loss function: Mean Squared Error (MSE)

→ 조인되는게 7개가 있다면 (x,y) 7개를 찾아야됨 → 학습의 안정성을 위해 0~1 사이로 만들어줌 

 

 

Stage s (s > 1): Joint refinement → 이전 단계를 보완해줌, 주변 영역을 다 자르고 봄


• Crop around the area of each joint based on the previous stage’s predictions.
• Augmentation: Randomly crop boxes of various sizes centered around the GT joint positions.
• Examine the specific area and calculate the offset required to adjust the joint’s coordinates.
• Separate models for each joint at every stage, increasing complexity.

ex. 오른쪽 팔꿈치 주변을 다 뜯어서 봄 → 이전에 진행한 x,y 좌표에 더해서 진행 

 


Efficient Object Localization Using ConvNets (2015)

 

RGB 이미지의 신체 관절의 위치를 예측하는 ConvNet 아키텍쳐를 제안합니다. 이 논문의 저자는 New York 대학교 소속입니다. 이 모델을 사용하면 풀링을 증가시켜 계산 효율성을 향상시킬 수 있습니다. 

 

• Single-person pose estimation (1인 분석) 
• Heatmap representation (히트맵을 통해 예측)

→ 14개의 히트맵이 32x32로 나옴 

 

→ 왼쪽 무릎을 찾기 위해서 한 부분만 보면 알기 힘들기 때문에 주변을 봄 


Stacked Hourglass Networks (2016)

  • bottom-up과 top-down 과정이 중간 감독과 함께 그들이 제안하는 네트워크의 성능을 향상시킨다고 주장한다. 이 네트워크는 "겹겹이 쌓인 모래시계 (stacked hourglass)"라고 언급되는데, 마지막 예측값을 생성하기 위해한 투표(polling)와 표본추출(upsampling)의 연속적인 과정 때문이다.

OpenPose (2017)

a) 각각의 조인트에 대해 히트맵을 구성

b) 사람이 2명이니까 2군데 나옴 → 

c) 벡터를 사용하여, 각각의 위치에서 part 간의 연결을 예측 

→ 어떻게 연결할지 다양하게 해보고 최적의 것을 찾음 


Mask R-CNN (2017)

  • Faster R-CNN에서 사용한 Classification branch와 bounding box regression branch에 추가로 Segmentation task를 예측하는 mask branch가 평행하게 추가된 구조입니다

Mask R-CNN for Human Pose Estimation
• Model a keypoint’s location as a one-hot m×m binary mask.
• Only a single pixel is labeled as foreground. 
• Minimize the cross-entropy loss over an m2 &-way softmax output.

Predict k masks, one foreach of k keypoint types (e.g., left shoulder, right elbow).

Add a DECONV layer and 2× bilinear upscaling, producing an output resolution of 56×56.
• Relatively high-resolution output is required for keypoint-level localization accuracy.

 


2D Pose to 3D Pose Using RGB Images

  • 2D 이미지로부터 3D를 만드는 특징이 있다
  • 2D 이미지가 들어오면 2D 포인트 뽑고, 3D 포인트를 뽑음 

• First single-person 3D pose estimation
• 2D pose estimation + Lifting

 


[참고자료]

국내에서는 생소한 Human Pose Estimation(HPE) 기술의 현위치와 미래 - 패스트캠퍼스 미디어 (fastcampus.co.kr)

 

국내에서는 생소한 Human Pose Estimation(HPE) 기술의 현위치와 미래 - 패스트캠퍼스 미디어

컴퓨터비전과 Human Pose Estimation 자동화 시대가 도래하면서 기계의 시각에 해당하는 부분을 연구하는 분야인 컴퓨터비전의 시장규모는 점점 커지고 있습니다. 컴퓨터비전은 우리의 일상생활 속

media.fastcampus.co.kr

사람 포즈 추정에 대한 2019년도 가이드 (번역) (tistory.com)

 

사람 포즈 추정에 대한 2019년도 가이드 (번역)

A 2019 Guide to Human Pose Estimation | by Derrick Mwiti | Heartbeat (fritz.ai) A 2019 Guide to Human Pose Estimation Examining popular and current approaches heartbeat.fritz.ai A 2019 Guide to Human Pose Estimation 사람 포즈 추정은 이미지 속의

diane-space.tistory.com