- 분류: Vision Model
- 저자: Christian Szegedy, Wei Liu, Yangqing Jia, ...
- 소속: Google, University of Nort Carolina, University of Michigan
- paper: Going deeper with convolution
- 키워드: Inception, GoogLeNet, Object Detection
1. 연구 배경
- 최근 몇 년간 CNN을 활용한 이미지 인식 & 객체 탐지 기술이 급격히 발전
- 특히, 더 깊고 넓은 네트워크 구조 활용 & 효율성 유지가 주요 연구 과제
기존 모델보다 적은 연산량&파라미터를 가지는 Inception 모델 제안
2. 핵심 아이디어 및 방법론
1) 기존 CNN 구조의 단점
깊이와 너비를 증가시키면 성능은 향상되지만, 연산량이 기하급수적으로 증가
2) Inception Module
연산량을 효율적으로 분배, 서로 다른 스케일의 특징을 동시에 추출

스파스 구조의 밀집 근사(Dense Apporximation of Sparse Structure)
- 사용 배경: CNN을 깊게 만들수록 네트워크의 성능이 향상됨, 그러나 단순히 필터 수와 층을 증가시키면 연산량이 기하급수적으로 증가
- 이상적인 신경망 구조: sparse(희소) 구조
불필요한 연결을 최소화하면서도 중요한 정보만 학습하는 방식
현재의 HW/SW 환경은 희소 행렬 연산이 비효율적인 구조이기 때문에 직접 적용이 곤란
-> 따라서, 밀집 구조로 근사
희소 구조를 밀집 구조로 근사하기
- 1x1 컨볼루션을 이용한 차원 축소
3x3, 5x5 컨볼루션을 수행하기 전에 1x1 컨볼루션을 사용하여 필텉 수를 줄임으로써 연산량 줄이기
-> 이는 고차원 데이터를 저차원으로 매핑하는 정보 압축 역할을 함
- 다양한 크기의 컨볼루션 병렬 적용
1x1, 3x3, 5x5 컨볼루션을 동시에 수행하여 여러 크기의 특징을 추출한 후, 이를 합치는 방식으로 희소 구조를 밀집 형태로 구현
- 다중 스케일 특징 학습
작은 필터(1x1, 3x3)와 큰 필터(5x5)를 혼합, 다양한 범위 정보를 동시에 학습
- 공간적으로 분포된 희소 연결을 효율적으로 조합
한 층의 뉴런들이 서로 강하게 연결된 작은 그룹(클러스터)들을 만들고 이를 밀집한 연산으로 근사하여 학습
-> 계산 효율성 증가, 일반화 성능 향상, 모바일 및 임베디드 시스템에서도 활용 가능
3. 실험 및 핵심 작업
- 데이터셋: ILSVRC 2014의 이미지 분류 및 객체 탐지 데이터셋
- 모델 구성: 22개 층으로 이루어진 GoogLeNet 모델을 개발하여 실험 수행

- 학습 방법
- 분산 학습 시스템(DistBelief): 데이터 및 모델 병렬화를 통한 학습 가속화
- 비동기 SGD(Asybchronous Stochastic Gradient Descent)와 Momentum(0.9) 사용
- 보조 분류기(Auxiliary Classifier) 추가: 중간 계층에서 학습을 돕고 ,그래디언트 소실 문제 완화
- 다양한 크롭 및 데이터 증강 기법 사용: 이미지 크롭 크기(8% ~ 100%) 및 다양한 보간 방법 적용
4. 결과 및 분석
1) ILSVRC 2014 이미지 분류(Top-5 Error) 성능 비교

- 기존 Krizhevsky et al.(AlexNet) 모델보다 12배 적은 파라미터를 사용하면서도 더 높은 정확도 달성
2) ILSVRC 2014 객체 탐지 성능 비교

- R-CNN과 유사한 접근법 사용, Selective Search와 MultiBox 기법을 결합하여 탐지 성능 개선
3) 모델 성능 분석

- 단일 모델보다 7개 모델 앙상블 사용 시 성능 향상
- Aggressive Cropping 기법으로 정확도 향상
- Bounding Box Regression을 적용하지 않아도 높은 성능을 기록
5. 결론 및 향후 연구 방향
- 희소 구조를 밀집 네트워크로 근사하는 방법을 통해 CNN의 성능을 크게 향상시킬 수 있음을 확인
- Inception 모듈을 통한 다중 스케일 특징 학습이 효과적임을 입증
- 기존 모델 대비 적은 연산량, 메모리로 뛰어난 성능을 보임, 모바일 및 임베디드 시스템에서 활용 가능성 높음
- 더 희소한 네트워크 구조를 자동으로 생성하는 방법과 다양한 도메인에서의 적용 가능성 탐색 필요