[논문 리뷰] Deep Residual Learning for Image Recognition(2015)

My_oyster_house·2024년 11월 10일

용어 정리

  1. 항등 함수 (Identity Function): 입력값을 변환 없이 그대로 출력하는 함수로, 네트워크에서 Shortcut Connection을 통해 정보를 손실 없이 전달하는 데 사용됨.

  2. 솔버 (Solver): 수학적 또는 최적화 문제를 해결하는 알고리즘이나 도구로, 학습 과정에서 가중치를 최적화하는 역할을 함.

  3. 최적 함수 (Optimal Function): 특정 문제에서 가장 효율적으로 결과를 내는 목표 함수로, Residual Network에서는 이 함수를 직접 학습하지 않고, 입력 값과의 차이(잔차)를 학습하여 이 함수에 더 쉽게 도달할 수 있도록 함.

  4. 사전 조정 (Preconditioning): 최적화 과정을 더 쉽게 수행할 수 있도록 문제를 미리 조정하는 과정으로, Residual Network에서 최적화의 안정성을 높이는 데 기여함.

  5. 잔차 함수 (Residual Function): 목표 값과 입력 값의 차이를 나타내는 함수로, Residual Network에서 목표 함수에 도달하기 위해 학습하는 함수. 이 차이(잔차)를 학습하여 네트워크가 목표에 더 쉽게 접근하도록 만듦.

  6. 정방 행렬 (Square Matrix): 행과 열의 개수가 같은 행렬 (예: 3x3, 5x5 등). Residual Network에서는 입력과 출력의 차원이 다를 때 차원을 맞추기 위해 Shortcut Connection에서 사용될 수 있음.

  7. 항등 맵 (Identity Mapping): 입력값을 그대로 출력하는 매핑 방식으로, Shortcut Connection에서 층을 추가해도 기존 정보를 그대로 유지하기 위해 사용됨.

  8. 선형 사영 (Linear Projection): 입력 벡터의 차원을 변환하여 맞추는 방법으로, Residual Network에서 Shortcut Connection을 통해 입력과 출력 차원이 다를 때 활용됨.

  9. 병목 아키텍처 (Bottleneck Architecture): 계산 효율성을 높이기 위해 사용되는 네트워크 구조. Residual Network에서 깊이를 증가시키면서도 계산량을 줄이기 위해 1x1 - 3x3 - 1x1 합성곱을 사용하여, 3x3 층에서 병목 구간을 통해 계산량을 줄임.

  10. 워밍업 (Warm-up): 학습 초기 단계에서 학습률을 낮게 시작해 모델이 안정적으로 학습할 수 있도록 돕는 기법.

Abstract

  • 깊은 신경망은 훈련하기 어려움
  • 잔차 학습 프레임워크(residual learning framework)를 도입해 더 깊은 네트워크 훈련을 용이하게 함
  • ImageNet 데이터셋에서 152층 잔차 네트워크를 평가함
    • VGG 네트워크보다 8배 더 깊지만 복잡성은 더 낮음
  • 앙상블 모델은 ImageNet에서 3.57%의 오류율을 기록하며 ILSVRC 2015에서 1위 차지

1. Introduction

  • 깊은 합성곱 신경망이 이미지 분류에서 큰 성과를 냄
  • 네트워크의 깊이가 성능 향상에 매우 중요함
    • 깊은 네트워크일수록 다양한 특징을 더 풍부하게 학습할 수 있음
  • 그러나 네트워크가 깊어질수록 성능 저하 문제(degradation problem) 발생
    • 깊이가 늘어나면 학습 오류가 오히려 증가하는 현상
  • 이를 해결하기 위해 잔차 학습 프레임워크를 제안
    • 각 층이 목표 함수를 직접 학습하는 대신, 잔차 함수를 학습하여 최적화 용이성 개선
  • 잔차 표현 (Residual Representations):
    • 이미지 인식에서 VLAD와 Fisher Vector와 같은 잔차 기반 표현 방식이 성능 향상에 기여
    • 벡터 양자화에서도 잔차 벡터를 사용하면 성능이 더 좋아짐
  • Shortcut Connections:
    • 초기 다층 퍼셉트론에서 입력과 출력을 직접 연결해 학습 효율을 높임
    • 사라지는 기울기 문제를 해결하기 위해 보조 분류기와 직접 연결하는 방식 제안됨

3. Deep Residual Learning

3.1 Residual Learning

  • 목표 함수 H(x)를 직접 학습하는 대신, 잔차 함수 F(x) := H(x) - x를 학습하게 함
  • 네트워크가 학습해야 하는 목표 함수는 F(x) + x로 재구성됨
  • 잔차 학습을 통해 학습이 더 용이해지고, 성능 저하 문제 해결 가능

3.2 Identity Mapping by Shortcuts

  • 잔차 학습을 위한 Shortcut Connection을 사용하여 매 층의 입력을 유지
  • Shortcut은 파라미터나 계산 복잡도를 증가시키지 않음
  • 이를 통해 plain 네트워크와 공정하게 비교 가능

3.3 Network Architectures

  • 여러 plain 및 residual 네트워크를 테스트하며 일관된 현상 관찰
  • Plain Network:
    • VGG 네트워크의 철학을 바탕으로 설계
    • 대부분 3x3 필터를 사용하며, 동일한 출력 크기에서는 동일한 수의 필터 사용
    • 다운샘플링은 스트라이드 2를 갖는 합성곱으로 수행
  • Residual Network:
    • plain 네트워크에 Shortcut Connection을 추가하여 잔차 네트워크로 변환
    • 입력과 출력의 차원이 같은 경우, 항등 연결(identity shortcut)을 사용
    • 차원이 다를 경우, 1x1 합성곱을 통해 차원을 맞춤

3.4 Implementation

  • ImageNet 데이터셋에서 사용한 구현 방식:
    • 이미지 크기를 다양한 스케일로 조정하여 학습 시 데이터 증대
    • 배치 정규화(BN)를 사용하여 각 합성곱 뒤에 활성화 함수 적용
    • SGD 방식으로 학습, 학습률은 초기 0.1에서 오류가 일정해지면 10으로 나눔
    • 드롭아웃(dropout)은 사용하지 않음
  • 테스트에서는 표준 10-crop 방식을 사용하며, 여러 스케일에서 평균 점수를 구함

4. Experiments

4.1 ImageNet Classification

  • 18층과 34층의 plain 네트워크를 테스트:
    • 34층 plain 네트워크는 더 깊지만 검증 오류가 높게 나타남 (성능 저하 문제 확인)
  • Residual Networks (ResNet):
    • 동일한 18층과 34층 아키텍처에 잔차 학습을 적용한 ResNet을 평가
    • 34층 ResNet은 성능 저하 문제를 해결하고 더 깊이 있는 학습이 가능
    • residual learning 덕분에 plain 네트워크보다 오류율이 크게 낮아짐

Identity vs. Projection Shortcuts

  • 파라미터가 없는 항등 연결이 학습에 효과적임을 확인
  • Projection Shortcut도 테스트했으나, 항등 연결이 성능 저하 문제 해결에 충분함을 확인

Deeper Bottleneck Architectures

  • 더 깊은 네트워크 구성을 위해 병목 아키텍처(bottleneck architecture)를 설계
    • 각 잔차 함수 F에 1x1, 3x3, 1x1 합성곱으로 구성된 병목 블록을 사용
    • 152층 깊이의 네트워크에서도 효율성을 유지하면서 성능 향상

4.2 CIFAR-10 and Analysis

  • CIFAR-10 데이터셋에서 추가 실험 진행:
    • 간단한 아키텍처로 극도로 깊은 네트워크의 동작을 분석
    • n 값을 증가시키며 20층, 32층, 44층, 56층 네트워크 구성
    • plain 네트워크는 깊이가 깊어질수록 학습 오류가 증가하는 반면, ResNet은 오류 없이 깊이를 늘릴 수 있었음

4.3 Object Detection on PASCAL and MS COCO

  • 객체 탐지 작업에서도 ResNet의 일반화 성능을 확인
  • Faster R-CNN 모델에 VGG 대신 ResNet-101을 사용하여 COCO 데이터셋에서 6% 성능 향상
  • COCO와 ILSVRC 2015 대회에서 ImageNet 및 COCO 데이터셋의 여러 트랙에서 1위 기록
profile
kwonhs.alice@gmail.com

0개의 댓글