[Paper Review] Learning Structured Output Representation using Deep Conditional Generative Models

TAEHYEONG·2021년 3월 12일
0

Generative Model

목록 보기
2/2

Abstract

감독된 딥러닝은 많은 인식 문제에 성공적으로 적용되었습니다. 많은 양의 학습 데이터가 제공될 때 복잡한 다대일 함수를 잘 근사할 수 있지만 확률적 추론을 효과적으로 수행하고 다양한 예측을 수행하는 복잡한 구조화된 출력 표현을 모델링 하는 것은 여전히 어렵습니다. 이 연구에서는 가우스 잠재 변수를 사용하여 구조화된 출력 예측을 위한 심층 조건부 생성 모델을 개발합니다. 이 모델은 확률적 기울기 변이 베이즈의 프레임 워크에서 효율적으로 학습되며 확률적 피드 포워드 추론을 사용하여 빠른 예측이 가능합니다. 또한 학습 시 입력 잡음 주입 및 다중 규모 예측 목표와 같은 강력한 구조화된 예측 알고리즘을 구축하기 위한 새로운 전략을 제공합니다. 실험에서 우리는 확률적 추론을 사용하여 다양하지만 현실적인 구조화된 출력 예측을 생성하는데 있어 결정론적 심층 신경망 대응물과 비교하여 제안된 알고리즘의 효과를 보여줍니다. 또한 제안된 교육 방법은 보완적이므로 Caltech-UCSD Birds 200 및 Wild 데이터 세트의 Labeled Faces 하위 집합에서 강력한 픽셀 수준 개체 분할 및 의미론적 레이블링 성능을 제공합니다.

1. Introduction

구조화된 출력 예측에서는 확률적 추론을 수행하고 다양한 예측을 할 수 있는 모델을 학습하는 것이 중요합니다. 이는 분류 작업처럼 단순히 다대일 함수를 모델링 하는 것이 아니라 단일 입력에서 가능한 많은 출력으로 매핑을 모델링 해야 할 수 있기 때문입니다. 최근에, 컨볼루션 신경망 (CNN)은 대규모 이미지 분류 작업 [17, 30, 27]에서 크게 성공했으며 구조화된 예측 작업에 대한 유망한 결과를 보여주었습니다 (예 : [4, 23, 22]). 그러나 CNN은 다중 모드로 분포를 모델링 하는데 적합하지 않습니다 [32].

이 문제를 해결하기 위해 출력 표현 학습 및 구조화된 예측을 위한 새로운 심층 조건부 생성 모델 (CGM)을 제안합니다. 즉, 우리는 입력 관찰을 조건으로 하는 생성 모델로 고차원 출력 공간의 분포를 모델링 합니다. 최근에 개발된 변형 추론과 방향성 그래픽 모델 학습 [16, 24, 15]을 기반으로 CVAE (Conditional Variational Auto-encoder)를 제안합니다. CVAE는 입력 관측치가 출력을 생성하는 가우스 잠재 변수의 사전을 변조하는 조건부 지향 그래픽 모델입니다. 조건부 로그 우도를 최대화하도록 훈련되었으며 확률적 기울기 변화 베이즈 (SGVB) [16]의 프레임 워크에서 CVAE의 변화 학습 목표를 공식화합니다. 또한 더 강력한 예측 모델을 구축하기 위해 입력 잡음 주입 및 다중 규모 예측 훈련 방법과 같은 여러 전략을 소개합니다.

실험에서 우리는 확률적 추론을 사용하여 다양하지만 현실적인 출력 예측을 생성하는 데 있어 결정론적 신경망 대응물과 비교하여 제안된 알고리즘의 효과를 보여줍니다. 입력 데이터가 부분적으로 제공될 때 구조화된 출력을 모델링 할 때 확률적 뉴런의 중요성을 보여줍니다. 또한 제안된 교육 계획이 상호 보완적이라는 것을 보여 주어 Caltech-UCSD Birds 200 및 Wild 데이터 세트의 Labeled Faces 하위 집합에서 강력한 픽셀 수준 개체 세분화 및 레이블링 성능을 제공합니다.

요약하면, 논문의 기여는 다음과 같습니다.

  • 우리는 SGVB 프레임 워크에서 효율적으로 훈련할 수 있는 CVAE 및 그 변형을 제안하고 구조화된 예측을 위한 모델의 견고성을 향상시키기 위한 새로운 전략을 도입합니다.

  • 구조화된 출력 변수의 다중 모달 분포를 모델링 할 때 Gaussian 확률적 뉴런을 사용하여 제안된 알고리즘의 효과를 보여줍니다.

  • CUB 및 LFW 데이터 세트에서 강력한 의미 객체 분할 성능을 달성합니다.

논문은 다음과 같이 구성되어 있습니다. 먼저 섹션 2에서 관련 작업을 검토합니다. 섹션 3에서 예비를 제공하고 섹션 4에서 심층 조건부 생성 모델을 개발합니다. 섹션 5에서는 제안된 모델을 평가하고 실험 결과를 보고 합니다. 6장에서 논문을 마칩니다.

최근 대규모 시각 인식에 대한 감독 딥러닝 [17, 30, 27]이 성공한 이래로 물체 감지 [6, 26, 31, 9] 및 지도 심층 학습 기술을 사용하는 의미론적 분할 [4, 3, 23, 22]. 우리의 연구는 구조화된 출력 예측을 위한 고급 알고리즘을 개발하는 이 연구 범주에 속하지만 확률적 뉴런을 통합하여 분포가 여러 모드를 가질 수 있는 복잡한 출력 표현의 조건부 분포를 모델링 합니다. 이런 의미에서 우리의 작업은 CRF와 Boltzmann 기계의 하이브리드 모델을 사용하는 이미지 분할 작업에 대한 최근 작업과 유사한 동기를 공유합니다 [13, 21, 37]. 이에 비해 우리가 제안한 모델은 컨볼루션 아키텍처를 사용하는 세분화를 위한 종단 간 시스템이며 까다로운 벤치마크 작업에서 성능을 크게 향상시킵니다.

감독된 딥러닝 방법의 최근 획기적인 발전과 함께 deep belief networks [10, 20] 및 딥 볼츠만 머신 [25]과 같은 심층 생성 모델의 발전이 있었습니다. 최근 다양한 심층 생성 모델에 대한 추론 및 학습 알고리즘의 발전으로 이 연구 라인이 크게 향상되었습니다 [2, 7, 8, 18]. 특히 가우시안 잠재 변수 (예 : 변이 자동 인코더 [16, 15] 및 심 잠재 가우시안 모델 [24])를 사용하는 딥 디렉팅 그래픽 모델의 변이 학습 프레임워크가 최근 개발되었습니다. 학습 목표 및 재 매개 변수화 트릭으로 로그 가능성의 변이 하한을 사용하면 이러한 모델은 확률적 최적화를 통해 쉽게 학습할 수 있습니다. 우리의 모델은 이 프레임 워크를 기반으로 하지만 구조화된 예측 문제에 대한 출력 변수의 조건부 분포 모델링에 중점을 둡니다. 여기서 주요 목표는 복잡한 출력 표현을 모델링 하는 것뿐만 아니라 차별적인 예측을 만드는 것입니다. 또한 우리 모델은 컨볼루션 아키텍처를 활용하여 대형 이미지를 효과적으로 처리할 수 있습니다.

확률적 피드 포워드 신경망 (SFNN) [32]은 실숫값 결정론적 뉴런과 이진 확률적 뉴런의 조합이 있는 조건부 지향 그래픽 모델입니다. SFNN은 피드 포워드 제안 분포에서 여러 샘플을 추출하고 중요도 가중치를 사용하여 다르게 가중치를 부여하여 일반화된 EM의 Monte Carlo 변형을 사용하여 훈련됩니다. 우리가 제안한 가우스 확률적 신경망 (4.2 절에서 설명할 것임)은 표면적으로 비슷해 보이지만, 이진 확률적 뉴런에 대해 가우스 잠재 변수를 사용하는 최적화에 실질적인 이점이 있습니다. 또한 프레임 워크에 사용된 인식 모델 덕분에 훈련 중에 몇 개의 샘플만 그리는 것으로 충분하며 이는 매우 깊은 컨볼루션 네트워크를 훈련하는 데 매우 중요합니다.

4. Deep Conditional Generative Models for Structured Output Prediction

Figure 1: 조건부 그래픽 모델 (CGM)의 그림. (a) 베이스라인 CNN에 대한 출력 Y\mathbf{Y}의 예측 프로세스; (b) CGM의 생성 과정; (c) Z\mathbf{Z}의 대략적인 추론 (인식 과정 [16]이라고도 함) (d) 반복적인 연결을 가진 생성 과정.

6. Conclusion

구조화된 출력 변수의 다중 모드 분포를 모델링 하는 것은 구조화된 출력 예측 문제에서 우수한 성능을 달성하기 위한 중요한 연구 문제입니다. 본 연구에서는 가우시안 잠재변수가 있는 조건부 심층 생성 모델을 기반으로 구조화된 출력 예측을 위한 확률적 신경망을 제안했습니다. 제안된 모델은 추론 및 학습에서 확장 가능하고 효율적입니다. 우리는 출력 공간의 분포가 여러 모드를 가질 때 확률적 추론의 중요성을 보여주었으며, 분할 정확도, 조건부 로그 가능성 추정 및 생성된 샘플의 시각화 측면에서 강력한 성능을 보였습니다.

0개의 댓글