[paper-review] Objects as Points

riverdeer·2021년 3월 31일

Paper Review

목록 보기

14/23

Zhou, X., Wang, D., & Krähenbühl, P. (2019). Objects as points. arXiv preprint arXiv:1904.07850.

Object detection with implicit anchors.

$I \in \mathcal{R}^{W\times H\times 3}$ : 입력 이미지
$\hat{Y} \in [0, 1]^{{W\over R} \times {H\over R} \times C}$ : CenterNet이 만들고자 하는 keypoint heatmap
- $R=4$ : feature extractor를 거치면서 해상도가 줄어들게 되는 비율
- $\hat{Y}_{x,y,c}=1$ : keypoint를 의미
- $\hat{Y}_{x,y,c}=0$ : background를 의미
CornetNet에서와 비슷하게 keypoint heatmap( $\hat{Y}$ ) 및 offset map을 뽑아낸다.
- keypoint prediction loss
  - $L_{det} = -{1 \over N} \sum_{xyc} \begin{cases} (1-\hat{\bold Y}_{xyc})^\alpha \log (\hat{\bold Y}_{xyc}) & \mathrm{if} \space Y_{xyc}=1\\ (1-\bold Y_{xyc})^\beta(\hat{\bold Y}_{xyc})^\alpha \log(1-\hat{\bold Y}_{xyc}) & \mathrm{otherwise}\end{cases}, \\\alpha=2, \beta=4$
- offset loss
  - $L_{off} = {1 \over N}\sum_p \lvert \hat{O_{\tilde{p}}} - \left( {p \over R} - \tilde{p} \right) \rvert$
    - $\hat{O} \in \mathcal{R}^{{W\over R} \times {H\over R} \times 2}$ : $x$ 좌표에 대한 offset값, $y$ 좌표에 대한 offset값으로 총 두 개
    - $p \in \mathcal{R}^2$ : ground truth keypoints
    - $\tilde{p} = \lfloor {p \over R} \rfloor$

size loss

object $k$ 의 bounding box 좌표를 $(x_1^{(k)}, y_1^{(k)}, x_2^{(k)}, y_2^{(k)})$ 라고 할 때,
center point는 $p_k=\left( {x_1^{(k)} + x_2^{(k)} \over 2}, {y_1^{(k)} + y_2^{(k)} \over 2}\right)$
물체의 크기를 나타내는 $s_k = (x_2^{(k)} - x_1^{(k)}, y_2^{(k)} - y_1^{(k)})$
물체의 크기를 조정하는데 기여하는 size loss
$L_{size} = {1 \over N} \sum_{k=1}^N \lvert \hat{S}_{p_k} - s_k \rvert$
- $\hat{S} \in \mathcal{R}^{{W\over R} \times {H\over R} \times 2}$ : $x$ 좌표에 대한 size값, $y$ 좌표에 대한 size값으로 총 두 개

overall loss

L_{det} = L_k + \lambda_{size}L_{size} + \lambda_{off}L_{off} \\ \lambda_{size}=0.1, \lambda_{off}=1

모든 keypoints $\hat{Y}$ , offset $\hat{O}$ , size $\hat{S}$ 는 단일 네트워크에서 비롯된 것이며, 총 $C+4$ (offset 2 + size 2)개의 채널 output이 생성된다.

From points to bounding boxes