[논문리뷰] HandOccNet: Occlusion-Robust 3D Hand Mesh Estimation Network

nextdoor.dev·2022년 6월 22일
0

논문리뷰

목록 보기
3/6

안녕하세요.
넥스트도어 장우일입니다.

본 논문은 2022년 3월 발표된 논문으로, 손의 폐색(occlusion)에 강건한(robust) mesh recovery 모델을 다루고 있습니다.

논문 : https://arxiv.org/pdf/2203.14564.pdf
코드 : https://github.com/namepllet/HandOccNet

모델 단순화
이 논문의 모델 구조를 단순화한 사진입니다.
간단히 말하면, (a)이미지의 빨간색 영역(손 부분)과 파란색 영역(폐색된 손 부분)의 feature를 분리해서 추출한 뒤, 다시 합쳐서 추론에 사용하고 있습니다.
이를 ResNet50 backbone과 2개의 transformer(FIT, SET), regressor로 구성하여 해결하는데요.

실생활의 영상, 이미지들은 손이고, 몸이고 폐색이 일어나는 경우가 굉장히 많기 때문에,
실질적으로 도움될 수 있는, 굉장히 좋은 접근을 했다고 생각합니다.

1. 관련 연구

1-1. 폐색에 강건한 포즈 추정 방법

1) 폐색 데이터 증강
PASCAL VOC와 같은 이미지들을 배경으로 써서 일부에 끼워넣거나, 일부 joint를 가리는 방법.
부족한 폐색 데이터를 보완할 수 있지만, 합성 데이터라는 문제점이 있다.

2) 시간 정보 활용

3) 공간 정보 활용
spatial attention 메커니즘.
spatial attention map, image feature를 같이 활용하는 방법.
폐색된 영역의 특징을 필터링하기 위해 spatial attention map을 활용한다.
본 논문과 관련있는 방법

[차이점]
3-1) 위의 방법들은 대부분 2D Pose Estimation을 위해 설계되었다.
3-2) 손이 심하게 가려진 경우에도, 충분한 feature를 생성하는, 새로운 feature injection 메커니즘을 제안한다.

2. HandOccNet

모델 아키텍처
크게 Backbone, FIT, SET, regressor 4가지 파트로 구성된다.

2-1. Backbone

backbone은 손 이미지에서 feature map(F)과 necessity map(M)을 추출한다.
1) 손 이미지를 ResNet50 기반 FPN에 보내고, Feature map(F)를 얻는다.
2) F에서 necessity map(M)을 얻는다.

2-2. Feature injecting transformer (FIT)

FIT 모델
FIT는 Fp와 Fs, 총 2가지 feature를 입력으로 받고, 상관관계를 고려해서 Fp의 정보를 Fs에 주입하는, transformer 기반 모듈입니다.

Fp : primary feature (손 영역)
Fs : Secondary feature (background 영역)

Feature injection : Correlation map인 C를 이용해서 손 정보를 적절한 폐색 영역에 주입한다.
C = C_soft x C_sig
(softmax 기반, sigmoid 기반 attention 결과)

2-3. Self-Enhancing transformer (SET)

SET 모델
SET는 self-attention과 함께 feature F_FIT에서 먼 정보를 참조하여 feature F_FIT를 개선합니다.
self-attention으로 입력 feature를 향상시키는 역할을 합니다.

2-4. Regressor

MANO 파라미터 추론하는 역할을 합니다.
1) enhanced feature F_set을 입력으로 받고, 각 joint H별 heatmap을 output으로 합니다.
2) 최종적으로 포즈 매개변수 θ∈R_48 및 shape 매개변수 β∈R_10를 예측합니다.


Feature map 시각화
Fp 상태에서 FIT을 거친 뒤, 폐색된 영역에 정보 주입이 되고(c), SET을 통해 enhancing 된 걸 확인할 수 있다(d).

결과표
HO-3D dataset에 대한 SOTA 모델들과의 비교.
METRO, Pose2Mesh 등의 모델들을 능가하고, 가장 우수한 성능을 보이고 있습니다.

profile
동작 분석을 연구하고 있는 (주)넥스트도어 연구팀 블로그입니다.

0개의 댓글