[논문 리뷰] Deep Residual Learning for Image Recognition(2015)

My_oyster_house·2024년 11월 10일

논문리뷰

용어 정리

항등 함수 (Identity Function): 입력값을 변환 없이 그대로 출력하는 함수로, 네트워크에서 Shortcut Connection을 통해 정보를 손실 없이 전달하는 데 사용됨.
솔버 (Solver): 수학적 또는 최적화 문제를 해결하는 알고리즘이나 도구로, 학습 과정에서 가중치를 최적화하는 역할을 함.
최적 함수 (Optimal Function): 특정 문제에서 가장 효율적으로 결과를 내는 목표 함수로, Residual Network에서는 이 함수를 직접 학습하지 않고, 입력 값과의 차이(잔차)를 학습하여 이 함수에 더 쉽게 도달할 수 있도록 함.
사전 조정 (Preconditioning): 최적화 과정을 더 쉽게 수행할 수 있도록 문제를 미리 조정하는 과정으로, Residual Network에서 최적화의 안정성을 높이는 데 기여함.
잔차 함수 (Residual Function): 목표 값과 입력 값의 차이를 나타내는 함수로, Residual Network에서 목표 함수에 도달하기 위해 학습하는 함수. 이 차이(잔차)를 학습하여 네트워크가 목표에 더 쉽게 접근하도록 만듦.
정방 행렬 (Square Matrix): 행과 열의 개수가 같은 행렬 (예: 3x3, 5x5 등). Residual Network에서는 입력과 출력의 차원이 다를 때 차원을 맞추기 위해 Shortcut Connection에서 사용될 수 있음.
항등 맵 (Identity Mapping): 입력값을 그대로 출력하는 매핑 방식으로, Shortcut Connection에서 층을 추가해도 기존 정보를 그대로 유지하기 위해 사용됨.
선형 사영 (Linear Projection): 입력 벡터의 차원을 변환하여 맞추는 방법으로, Residual Network에서 Shortcut Connection을 통해 입력과 출력 차원이 다를 때 활용됨.
병목 아키텍처 (Bottleneck Architecture): 계산 효율성을 높이기 위해 사용되는 네트워크 구조. Residual Network에서 깊이를 증가시키면서도 계산량을 줄이기 위해 1x1 - 3x3 - 1x1 합성곱을 사용하여, 3x3 층에서 병목 구간을 통해 계산량을 줄임.
워밍업 (Warm-up): 학습 초기 단계에서 학습률을 낮게 시작해 모델이 안정적으로 학습할 수 있도록 돕는 기법.

Abstract

깊은 신경망은 훈련하기 어려움
잔차 학습 프레임워크(residual learning framework)를 도입해 더 깊은 네트워크 훈련을 용이하게 함
ImageNet 데이터셋에서 152층 잔차 네트워크를 평가함
- VGG 네트워크보다 8배 더 깊지만 복잡성은 더 낮음
앙상블 모델은 ImageNet에서 3.57%의 오류율을 기록하며 ILSVRC 2015에서 1위 차지

1. Introduction

깊은 합성곱 신경망이 이미지 분류에서 큰 성과를 냄
네트워크의 깊이가 성능 향상에 매우 중요함
- 깊은 네트워크일수록 다양한 특징을 더 풍부하게 학습할 수 있음
그러나 네트워크가 깊어질수록 성능 저하 문제(degradation problem) 발생
- 깊이가 늘어나면 학습 오류가 오히려 증가하는 현상
이를 해결하기 위해 잔차 학습 프레임워크를 제안
- 각 층이 목표 함수를 직접 학습하는 대신, 잔차 함수를 학습하여 최적화 용이성 개선

잔차 표현 (Residual Representations):
- 이미지 인식에서 VLAD와 Fisher Vector와 같은 잔차 기반 표현 방식이 성능 향상에 기여
- 벡터 양자화에서도 잔차 벡터를 사용하면 성능이 더 좋아짐
Shortcut Connections:
- 초기 다층 퍼셉트론에서 입력과 출력을 직접 연결해 학습 효율을 높임
- 사라지는 기울기 문제를 해결하기 위해 보조 분류기와 직접 연결하는 방식 제안됨

3. Deep Residual Learning

3.1 Residual Learning

목표 함수 H(x)를 직접 학습하는 대신, 잔차 함수 F(x) := H(x) - x를 학습하게 함
네트워크가 학습해야 하는 목표 함수는 F(x) + x로 재구성됨
잔차 학습을 통해 학습이 더 용이해지고, 성능 저하 문제 해결 가능

3.2 Identity Mapping by Shortcuts

잔차 학습을 위한 Shortcut Connection을 사용하여 매 층의 입력을 유지
Shortcut은 파라미터나 계산 복잡도를 증가시키지 않음
이를 통해 plain 네트워크와 공정하게 비교 가능

3.3 Network Architectures

여러 plain 및 residual 네트워크를 테스트하며 일관된 현상 관찰
Plain Network:
- VGG 네트워크의 철학을 바탕으로 설계
- 대부분 3x3 필터를 사용하며, 동일한 출력 크기에서는 동일한 수의 필터 사용
- 다운샘플링은 스트라이드 2를 갖는 합성곱으로 수행
Residual Network:
- plain 네트워크에 Shortcut Connection을 추가하여 잔차 네트워크로 변환
- 입력과 출력의 차원이 같은 경우, 항등 연결(identity shortcut)을 사용
- 차원이 다를 경우, 1x1 합성곱을 통해 차원을 맞춤

3.4 Implementation

ImageNet 데이터셋에서 사용한 구현 방식:
- 이미지 크기를 다양한 스케일로 조정하여 학습 시 데이터 증대
- 배치 정규화(BN)를 사용하여 각 합성곱 뒤에 활성화 함수 적용
- SGD 방식으로 학습, 학습률은 초기 0.1에서 오류가 일정해지면 10으로 나눔
- 드롭아웃(dropout)은 사용하지 않음
테스트에서는 표준 10-crop 방식을 사용하며, 여러 스케일에서 평균 점수를 구함

4. Experiments

4.1 ImageNet Classification

18층과 34층의 plain 네트워크를 테스트:
- 34층 plain 네트워크는 더 깊지만 검증 오류가 높게 나타남 (성능 저하 문제 확인)
Residual Networks (ResNet):
- 동일한 18층과 34층 아키텍처에 잔차 학습을 적용한 ResNet을 평가
- 34층 ResNet은 성능 저하 문제를 해결하고 더 깊이 있는 학습이 가능
- residual learning 덕분에 plain 네트워크보다 오류율이 크게 낮아짐

Identity vs. Projection Shortcuts

파라미터가 없는 항등 연결이 학습에 효과적임을 확인
Projection Shortcut도 테스트했으나, 항등 연결이 성능 저하 문제 해결에 충분함을 확인

Deeper Bottleneck Architectures

더 깊은 네트워크 구성을 위해 병목 아키텍처(bottleneck architecture)를 설계
- 각 잔차 함수 F에 1x1, 3x3, 1x1 합성곱으로 구성된 병목 블록을 사용
- 152층 깊이의 네트워크에서도 효율성을 유지하면서 성능 향상

4.2 CIFAR-10 and Analysis

CIFAR-10 데이터셋에서 추가 실험 진행:
- 간단한 아키텍처로 극도로 깊은 네트워크의 동작을 분석
- n 값을 증가시키며 20층, 32층, 44층, 56층 네트워크 구성
- plain 네트워크는 깊이가 깊어질수록 학습 오류가 증가하는 반면, ResNet은 오류 없이 깊이를 늘릴 수 있었음

4.3 Object Detection on PASCAL and MS COCO

객체 탐지 작업에서도 ResNet의 일반화 성능을 확인
Faster R-CNN 모델에 VGG 대신 ResNet-101을 사용하여 COCO 데이터셋에서 6% 성능 향상
COCO와 ILSVRC 2015 대회에서 ImageNet 및 COCO 데이터셋의 여러 트랙에서 1위 기록

My_oyster_house

kwonhs.alice@gmail.com

이전 포스트

[논문번역] Deep Residual Learning for Image Recognition(2015)

다음 포스트

[논문 리뷰] Deep Residual Learning for Image Recognition(2015)

용어 정리

Abstract

1. Introduction

3. Deep Residual Learning

3.1 Residual Learning

3.2 Identity Mapping by Shortcuts

3.3 Network Architectures

3.4 Implementation

4. Experiments

4.1 ImageNet Classification

Identity vs. Projection Shortcuts

Deeper Bottleneck Architectures

4.2 CIFAR-10 and Analysis

4.3 Object Detection on PASCAL and MS COCO

[논문번역] Deep Residual Learning for Image Recognition(2015)

[영진닷컴 X BDA 빅분기 실기 스터디] 2주차

0개의 댓글

[논문 리뷰] Deep Residual Learning for Image Recognition(2015)

용어 정리

Abstract

1. Introduction

2. Related Work

3. Deep Residual Learning

3.1 Residual Learning

3.2 Identity Mapping by Shortcuts

3.3 Network Architectures

3.4 Implementation

4. Experiments

4.1 ImageNet Classification

Identity vs. Projection Shortcuts

Deeper Bottleneck Architectures

4.2 CIFAR-10 and Analysis

4.3 Object Detection on PASCAL and MS COCO

[논문번역] Deep Residual Learning for Image Recognition(2015)

[영진닷컴 X BDA 빅분기 실기 스터디] 2주차

0개의 댓글