github link : https://github.com/ViTAE
이 논문에서는 ViTPose라는 간단한 베이스라인 모델을 통해서 다양한 측면(모델 구조의 단순함, 모델 크기의 확장성, 훈련 패러다임의 유연성, 모델 간 지식 전달 가능성)에서 자세 추정을 위한 plain vision transformer의 놀랍도록 우수한 능력을 보여준다. 특히 ViTPose는 사람 인스턴스의 특성을 추출하기 위해 일반적이고 비계층적인 Vision Transformers를 backbone으로 사용하고, 자세추정을 위해 가벼운 디코더를 사용한다. 또한, ViTPose는 attention 유형, input의 해상도, 사전 학습과 finetuning 전략, 다양한 포즈 task들에 매우 유연하다. 간단한 지식 토큰을 통해 large ViTPose 모델의 지식을 작은 모델에 쉽게 지식을 전이할 수 있음을 실험적으로 입증하였다. 실험 결과는 basic ViTPose 모델이 MS COCO Keypoint Detection 벤치마크의 대표적인 방법들을 능가하는 것을 보여주며, 가장 큰 모델은 80.9AP로 새로운 sota를 달성하였다.
다른 vision transformer 구조들 대부분은 CNN을 백본으로 적용하였고, 추출된 feature를 개선하고 인체 키포인트 간의 관계를 모델링하기 위해 정교한 구조의 transformer를 사용하였다.
💡 예시
- PRTR- 추정된 키포인트들의 위치를 점진적으로 개선하기 위해 트랜스포머의 인코더와 디코더들 모두 결합
- TokenPose, TransPose - CNN으로부터 추출된 특성을 처리하기 위해 인코더만 포함하는 트랜스포머 구조 채택
- HRFormer - 트랜스포머를 사용하여 특징 직접 추출, 다중해상도 병렬 트랜스포머 모듈을 통해 높은 해상도 표현을 도입
▷ 이러한 방법들은 추가적인 CNN이 필요하거나 task 적용시 트랜스포머 구조를 세심하게 설계해야 함
ViTPose는 우수한 성능뿐 아니라, 간결함, 확장성, 유연성, 이식성의 다양한 측면에서 놀라운 능력을 보여줌
이러한 구조적 간단함으로 ViTPose가 더 나은 parallelism을 가짐 → 추론 속도와 성능 측면에서 새로운 pareto front에 도달
The framework of ViTPose
어떻게? → input image X를 patch embedding layer를 통해 토큰으로 변환
- d: patch embedding layer의 downsampling ratio
- c: channel dimension 수
그 다음 임베디드 토큰을 여러 트랜스포머 레이어에서 처리
각 레이어는 Multi-head self-attention(MHSA) 레이어와 feed forward network(FFN)으로 구성
- i : i번째 transformer layer의 output
- 초기 특성 F0 : 패치 임베딩 레이어 이후의 특성
backbone network의 output feature :
백본 네트워크에서 추출된 특성을 처리하는 두 가지 종류의 가벼운 디코더
- classic decoder : 두 deconv 블록으로 구성, 각각은 하나의 deconv레이어와 배치 정규화, ReLU로 구성, feature map을 2배로 업샘플링, 1x1 커널 크기를 갖는 컨볼루션 레이어를 사용하여 key point의 localization heatmap(K)을 얻음
- 더 간단한 디코더 : 피처맵을 bilinear 보간을 사용하여 4배로 업샘플링한 다음, ReLU 3x3 커널을 가진 컨볼루션 레이어를 사용하여 히트맵을 얻음단순한 디코더의 비선형 용량이 적을지라도, 클래식 디코더와 신중하게 설계된 트랜스포머 기반 디코더와 비교했을 때 경쟁력 있음 → 구조적 간결성 입증
→ joint training pipeline을 생성하고 상당한 성능 향상, 상당히 가벼운 디코더로 인해 아주 적은 추가 연산비용 발생
큰 ViTPose모델에서 학습한 지식을 전이시킴으로서 작은 ViTPose모델의 성능을 쉽게 향상시킬 수 있음
knowledge distillation과 토큰 기반 distillation 방법을 보완적으로 사용
1) knowledge distillation2) 토큰 기반 distillation 방법 추가로 학습가능한 지식 토큰 t를 무작위로 초기화하고 teacher모델의 패치 임베딩 레이어 이후의 시각적 토큰에 추가, 학습된 teacher 모델 고정하고 여러 에폭에 걸쳐 지식 토큰만 tuning
pose estimation에 간단하지만 효과적인 basemodel을 제안, 심지어 정교한 구조적인 설계나 복잡한 프레임워크를 사용하지 않고도 MS COCO Keypoint 데이터셋에 SOTA를 달성
구조적인 간단함, 모델 크기의 확장성, 훈련 과정의 유연성, 지식 전이성을 포함한 놀라운 능력
인기있는 벤치마크에서의 종합적인 실험을 통해 ViTPose의 능력을 연구하고 분석 - 매우 큰 비전 트랜스포머 모델인 ViTAE-G 를 백본으로 사용할 때, 단일 ViTPose 모델은 MS COCO Keypoint test-dev 셋에서 최고 80.9 AP 달성
ViTAE-G를 갖춘 단일 ViTPose 모델은 MS COCO 테스트 개발 세트에서 80.9 AP로 최고 performance 달성