Pixel Recurrent Neural Networks 논문 리뷰

Hα ყҽσɳɠ·2021년 4월 12일

너무 미루고 미루다가 읽었던거 까먹을쯤 드디어 정리하는 pixel rnn 리뷰,,,,

0. Abstract

Natural image의 distribution을 모델링 하는 것은 unsupervised learning의 두드러진 문제이다. 이런 task에는 표현력이 뛰어나고 다루기 쉽고 scalable한 이미지 모델이 필요하다.
논문에서는 두 공간 차원을 따라 이미지의 픽셀을 순차적으로 예측하는 심층 신경망을 제안하고 있으며, 이 방법은 raw pixel 값의 불연속 확률을 모델링하고 이미지의 전체 종속성 set을 인코딩 한다. Architectural novelties로는 빠른 2차원 recurrent layer와 deep recurrent network에서 residual connection의 효과적인 사용이 있다고 소개한다.

이전 SOTA 모델들보다 더 나은 log-likelihood scores를 얻었다고 하며, 이미지넷 데이터셋에 대한 벤치마크를 제공한다고 한다.

1. Introduction

~~자세히 알고 싶어서 한줄 한줄 읽고 정리했으나 그냥 컨트리뷰션이 뭔지만 알고, model 설계 부분 읽어도 될 내용이였다.~~

생성적 이미지 모델링은 unsupervised learning의 핵심 문제이다. Probabilistic density 모델은 이미지 압축, inpainiting, deblurring과 같은 이미지 생성에 이용할 수 있다.
Generative modeling은 하나는 학습할 수 있는 이미지 데이터의 양이 무한하다는 장점이 있지만, 이미지가 고차원이며 구조화되어 있어 natural image의 distribution을 추정하는 것은 매우 어렵다고 말한다. (학습 이미지가 왜 무한하지? 특정 테스크에서는 유한성 때문에 single image 학습이 나오는거 아닌가? 저자가 말하는 무한하다는 것이 무슨 의미인지 모르겠음)

Generative modeling에서의 주요한 챌린지는 다루기 쉽고 확장 가능하며 복잡하고 expressive한 모델을 구축하는 것이다. 이런 trade-off는 각각의 장점을 가진 다양한 generative model을 생성한다.
대부분의 연구는 의미 있는 표현을 추출하는 것을 목표로 하지만, 종종 성능을 방해 할 수 있는 다루기 힘든 추론 단계가 있는 VAE와 같은 stochastic latent variable model에 중점을 둔다.

이미지에서 픽셀의 공동 분포를 다루기 쉽게 모델링하는 한 가지 효과적인 접근 방식은 conditional distribution의 제품으로 캐스팅하는 것이다. 이러한 인수분해(Factorization)는 결합 분포 문제 (joint modeling problem)를 시퀀스 문제로 변환하여, 이전에 생성된 모든 픽셀이 주어지면 다음 픽셀을 예측하는 방법을 학습하게 된다. 그러나 픽셀과 그 결과로 발생하는 복잡한 조건적 분포 사이의 매우 비선형적이고 장거리인 상관 관계를 모델링하기 위해서는 표현력이 뛰어난 시퀀스 모델이 필요하다.

RNN은 일련의 조건부 분포의 compact하고 공유된 parametrization을 제공하며, 주로 필기 생성, 문자 예측 및 기계 번역 문제와 같은 어려운 문제에서 사용되었다. 이 논문은 natural image의 대규모 모델링에 사용할 수 있는 2D RNN 모델 개발을 목표로 한다.

PixelRNN은 최대 12개의 빠른 2D LSTM 레이어로 구성되며, state에서 LSTM 단위를 사용한 다음 하나의 공간 차원을 따라 모든 state를 한 번에 계산하기 위해 컨볼루션을 적용한다. 2가지 유형의 LSTM layer가 있다.
- Row LSTM - convolution applied along each row
- Diagonal BiLSTM - convolution applied along diagonal of images (Residual connection은 최대 12개 레이어 depth에 대한 학습에 도움이 됨)

단순화된 아키텍쳐는 PixelRNN과 동일한 핵심 구성 요소를 공유한다. CNN은 Masked convolution을 사용하여 고정된 종속성을 가진 시퀀스 모델로도 사용될 수 있다. PixelCNN 아키텍처는 레이어 전체에서 입력의 공간 해상도를 보존하고 각 위치에서 조건부 분포를 출력하는 15개 레이어로 구성된 fully convolutional network다.

PixelRNN과 PixelCNN은 독립 과정(like latent variable models)을 도입하지 않고 픽셀 상호 의존성을 나타낸다. 종속성은 각 픽셀 내의 RGB 색상 값 간에도 유지된다. 또한 픽셀을 연속 값으로 모델링하는 이전 접근 방식과 달리 간단한 softmax layer로 구현된 다항 분포를 사용하여 픽셀을 이산 값으로 모델링한다. 이 접근 방식은 모델에 대한 표현과 학습에 대한 advantage를 제공한다.

✔️ 이 논문의 컨트리뷰션

앞서 설명했던 두가지 유형의 LSTM 레이어에 해당하는 두 가지 유형의 PixelRNN을 설계하였다.
- 가장 빠른 아키텍처인 purely convolution PixelCNN과 PixelRNN의 Multi-Scale 버전을 설계하였다.
모델에서 이산 소프트맥스 분포를 사용하고, LSTM 레이어에 residual connection을 사용했을 때의 advantage를 보여준다.
MNIST 및 CIFAR-10에서 모델을 테스트하고 이전 결과보다 훨씬 우수한 성능 얻음.
32 × 32, 64 × 64 픽셀로 크기가 조정 된 대규모 ImageNet 데이터 셋에 대한 결과도 제공함.
PixelRNN에서 생성된 샘플의 정성적 평가 제공

2.

ㅇ ㅏ 되게 위대한 컨트리뷰션인거 같긴 한데 단어 선택이나 설명이 좀 ㉠ㅓﾸ1 같다 이 논문 뭐지...

Hα ყҽσɳɠ

𝑯𝒐𝒏𝒆𝒔𝒕𝒚 𝑰𝒏𝒕𝒆𝒈𝒓𝒊𝒕𝒚 𝑬𝒙𝒄𝒆𝒍𝒍𝒆𝒏𝒄𝒆

이전 포스트

SROBB: Targeted Perceptual Loss for Single Image Super-Resolution

다음 포스트

[OODP] RMI

1개의 댓글

Jeremy

2021년 5월 8일

저런...

답글 달기