[논문리뷰] Optimizing Intersection-Over-Union in Deep Neural Networks for Image Segmentation

Jajuna_99·2022년 10월 10일

논문리뷰

목록 보기

3/4

Optimizing Intersection-Over-Union in Deep Neural Networks for Image Segmentation

요약 : 객체 분할 문제에서의 IoU 최적화 방법 제시

Abstract

연구 동기는 객체 범주 분할(object category segmentation) DNN 학습이고, 목표는 사진의 모든 픽셀에 앞면(foregroung)인지 뒷면인지(background) 라벨링하는 것이다. DNN은 통상 간단한 손실함수로 학습된다(소프트맥스). 이러한 손실함수들은 성능을 전체적인 문제 정확도로 측정하는 표준의 분류 문제에 적합하다. 하지만 객체 범주 분할 문제는 두 클래스 (앞면과 뒷면)이 매우 불균형하다.

그래서 이 문제에는 IoU(Intersection over Union)가 사용된다. 이 논문에서는 객체 범주 분할 방법에 IoU를 통해 직접적으로 최적화하는 방법을 제안한다. 두개의 객체 범주 분할 데이터셋에 대한 우리 실험 결과는 우리의 방법이 일반적인 소프트맥스 손실함수보다 뛰어난 성능을 보여준다.

Introduction

이미지의 모든 픽셀의 앞면과 뒷면을 구분하는 라벨을 붙히는 것이 이 연구의 목적이다. 이 두 클래스(앞면과 뒷면)은 통상 불균형하다. 대부분의 픽셀이 뒷면에 속하기 때문이다. 전체적인 정확도를 측정하는 알고리즘은 이 문제에 적합하지 않을 수 있다. -> 최악의 경우 모든 픽셀이 뒷면이라고 예측할 수 있기 때문이다. 예를 들어 90%의 픽셀이 뒷면에 속한다고 한다면, 보통의 알고리즘 은 최악의 경우에도 90%의 정확도를 예측할 수 있다.

그래서 이러한 문제는 보통 IoU 손실함수를 사용한다. -> 이미지가 주어지면 IoU는 예측 영역(predicte region)과 실제 영역(ground-truth region)의 유사도를 측정해 정확도로 나타낸다. 그리고 이는 두 영역의 합집합 분의 교집합이다(IoU).

이러한 측정 방법은 보통의 알고리즘이 갖고 있는 맹점(전부 뒷면으로 예측하는)을 쉽게 대체한다.

우리의 제안은 2가지 범주 분할 연구 방향과 겹친다.

어플리케이션 정확한 성능 측정의 직접적인 최적화 연구: [1] ~ [11]
DNN을 사용한 이미지 의미 분할 연구 : [13] ~ [17]

Proposed Approach

이 논문에서는 객체 범주 분할 문제를 다룬다. 앞면인지 뒷면인지 픽셀 단위로 라벨링하는 것이 목표이다. 이를 위해 [14]에서 제안한 분류 CNN을 완전 CNN으로 변환하고, IoU 성능 단위를 직접적으로 최적화하기 위해, 종단으로, 픽셀 단위로 모델을 훈련시킨다.

모델 구조와 흐름
AlexNet (1x1) 모델을 완전 합성곱 모델(FCN)로 만드는 것부터 시작했다.

그리고 마지막 뒤에 2개 완전 연결 계층을 1x1 합성곱 계층으로 바꿨다. 그리고 1x1 합성곱 점수 계층도 추가했다.

그리고 점수 계층에서 샘플링된 데이터를 스트라이드 32개의 쌍일차 보간(bilinear interpolation)역합성곱 계층을 통과한다. -> 입력과 같은 크기의 값이 나온다.

이러면 FCN-32s와 완전히 똑같은 결과다.

이 결과값을 시그모이드 계층으로 점수를 픽셀을 분류하는 클래스 확률을 출력한다. 여기부터 소프트맥스를 사용하는 [14]와 달라진다.

여기서 소프트맥스 손실함수 대신 픽셀 확률들을 바로 IoU 손실함수를 통과 시키고 이 값을 토대로 모든 FCN을 훈련하는 거다.

위 제안에 대한 파이프라인 사진 또한 있다.

IoU와 IoU 손실함수 접근 방법

Experiments

데이터셋 : 3종류의 데이터셋을 사용했다. PASCAL VOC 2010, PASCAL VOC 2011, CamVid

베이스라인 : [14]에서 제안한 방법으로 완전연결 합성곱망으로 베이스라인 삼았고, [8]에서 제안한 MRF 모델과 비교도 한다.

Imp 세부사항 : 확률적 경사하강법과 미니 배치를 사용해 훈련했고, 미니 배치에는 적어도 한개의 긍정 예가 포함되게 했다. 훈련은 AlexNet의 사전 훈련 가중치를 사용해서 시작했다. 이 외 이미지 사이즈 조정, 학습률, 모멘텀, 가중치 디케이(decay)값들과 MatConvNet도 소개해준다.

3개의 데이터셋의 대한 결과는 당연히 여러 비교 손실 함수 보다 논문에서 제안한 손실 함수 정확도가 높다는 결과이다. 여러 범주(category)에 대한 디테일한 설명 또한 있다.

Conclusion

이미지 범주 분할 문제에서의 해결 방향을 제시했고, IoU 손실함수 최적화에 대한 결과를 보여줬다. 더 자세하게는 쌍일차(bilinear) 분할 문제에 집중했다.

다중 클래스 이미지 분할 문제도 적용할 방안으로 연구를 계속할 것이다.

Jajuna_99

Learning bunch, mostly computer and language

이전 포스트

[논문리뷰]DOTA : A Large-scale Dataset for Object Detection in Aerial Images

다음 포스트

[논문리뷰] Optimizing Intersection-Over-Union in Deep Neural Networks for Image Segmentation

논문리뷰

Optimizing Intersection-Over-Union in Deep Neural Networks for Image Segmentation

Abstract

Introduction

Proposed Approach

Experiments

Conclusion

[논문리뷰]DOTA : A Large-scale Dataset for Object Detection in Aerial Images

[논문직역] BERT: Pre-training of Deep Bidirectional Transformer for Language Understanding

0개의 댓글

[논문리뷰] Optimizing Intersection-Over-Union in Deep Neural Networks for Image Segmentation

논문리뷰

Optimizing Intersection-Over-Union in Deep Neural Networks for Image Segmentation

Abstract

Introduction

Related Work

Proposed Approach

Experiments

Conclusion

[논문리뷰]DOTA : A Large-scale Dataset for Object Detection in Aerial Images

[논문직역] BERT: Pre-training of Deep Bidirectional Transformer for Language Understanding

0개의 댓글