[논문 요약] Network In Network

Mayner·2021년 4월 9일
0

논문읽기

목록 보기
5/6
post-thumbnail

본 글에서 요약할 논문은 싱가포르 국립대학의 Min Lin이 2013년에 발표한 모델의 논문인 'Network In Network'입니다.

Link: Arxiv - Network In Network


Abstract 🧵

  • 본 논문에서는 성능 향상을 위해 'Network In Network'(이하 NIN)이라는 새로운 구조를 제한한다.
  • 데이터를 추상화하기 위해 micro neural network을 사용한다.
  • 기존의 Fully-Connected Layer 방식 대신, Global Average Pooling 방식을 채택하여 해석하기 쉬우며, 과적합이 덜 발생한다.
  • NIN 구조를 사용한 모델은 CIFAR-10, CIFAR-100, SVHN 및 MNIST 데이터셋에서 의미있는 성과를 만들어 냈습니다.

Keypoints 🔑

Convolutional Neural Network 🖇

  • CNN의 Convolution layer가 Local receptive field에서 Feature를 추출할 때 Filter로 계산하여 Linear한 문제를 해결하고자 했다.
  • 기존에는 Feature map을 늘려서 이러한 문제를 극복하려고 했지만 Filter가 늘어남에 따라 연산량이 늘어나는 문제가 있었다.
  • 그래서 논문의 저자는 Convolution을 할 때 Filter 대신에 MLP (Multi layer perceptron)를 사용 하여 Feature를 추출하는 방법을 고안했다.

MLP Convolution Layer 🎋

  • MLP은 학습 시 역전파를 그대로 사용할 수 있기에, CNN의 구조와 호환이 가능한 구조이다.
  • MLP 모델은 특징의 재사용을 통해 그 자체로도 깊은 모델이 될 수 있다.
  • Rectified linear unit(이하 ReLU)가 활성화 함수로 사용되었다.
  • 기존의 CNN처럼 filter를 이용하여 stride만큼 이동하면서 Convolution으로 Feature를 추출하는데, MLP를 사용한다는 것을 제외하면 NIN에서도 유사하게 진행된다.
  • Filter를 사용할 때보다 Non-linear한 Activation function을 더 추가하여 Non-linear한 성질로 인해 더 좋은 Feature를 추출 할 수 있다.
  • 1x1 Convolution을 통해 Feature map 개수를 줄임으로써 Parameter 수를 줄일 수 있었다.

Global Average Pooling 🧧

  • Fully-Connected Layer는 과적합이 발생하는 경향이 있으며, 네트워크의 성능에 방해가 될 수 도 있다.
  • 저자는 앞의 레이어에서 충분히 효과적인 feature를 추출했고, average pooling만으로 classifier 역할을 할 수 있다고 주장한다.
  • 또한 이를 통해 과적합과 연산량을 줄일 수 있는 효과가 있다.

1x1 Convolution 🔗

  • 1x1 Convolution을 사용하는 큰 이유는 차원을 줄이기 위해서다.
  • 여러 개의 feature map에서 비슷한 성질을 추출하여 feature map의 크기를 줄일 수 있다.
  • feature map의 크기를 줄임으로서 연산량이 줄어들게 되고, network를 더 깊게 만들 수 있다.

New Knowledge 👾

연산량 감소를 통해 network를 깊게 구현 가능 🧱

  • 1x1 Convolution의 장점으로는 차원을 줄일 수 있다는 점이다.
  • 이에 따라 연산량을 줄일 수 있게 되고, 따라서 network를 더 깊게 구현할 수 있다.

nonlinear manifold 🙄

  • nonlinear manifold(비선형 매니폴드)는 affine space(아핀 공간)이 아닌 manifold를 의미한다.
  • manifold(다양체): 극소적으로 유클리드 공간과 닮은 위상 공간
  • affine space(아핀 공간): 유클리드 공간의 아핀 기하학적 성질들을 일반화해서 만들어지는 구조

    Reference: PHYSICS.Stack Exchange

receptive field (local receptive field) 👁‍🗨

  • 뉴런들이 시야의 일부 범위 안에 있는 시각 자극에만 반응을 한다는 의미이다.
  • 뉴런의 수용영역(receptive field)들은 서로 겹칠수 있으며, 이렇게 겹쳐진 수용영역들이 전체 시야를 이루게 된다.
  • 이러한 관찰을 통해 고수준의 뉴런이 이웃한 저수준의 뉴런의 출력에 기반한다는 아이디어를 바탕으로, 신경망의 기원이 된다.

    Reference: EXCELSIOR


Task 🤔

  • Feature Map의 정확한 정의 및 심화 공부
  • 1x1 Convolution에 대한 추가 공부 및 실험 적용
  • "In conventional CNN, this might be compensated by utilizing an over-complete set of filters to cover all variations of the latent concepts."의 정확한 의미 이해하기
profile
인공지능처럼 공부하고 싶은 인공지능 개발자

0개의 댓글