5. Convolutional Neural Networks

Speedwell🍀·2022년 4월 4일

cs231n

목록 보기

6/8

5강에서는 Fully Connected Neural Networks에서 Convolutional Neural Networks로 이동한다.

Perceptron, Neocognition, LeNet, AlexNet을 포함하여 Convolutional Networks 개발의 역사에 대해 논의한다.

현대 Convolutional Networks의 기반을 형성하는 Convolution, Pooling, Fully-connected layers를 소개한다.

CNN의 역사

최초로 perceptron 구현

1957년 Frank Rosenblatt가 Mark I Perceptron machine을 개발
가중치 W를 업데이트하는 update rule

Multilayer Perceptron Network

1960년 Widrow와 Hoff가 Multilyaer perceptron network인 Adaline/Madaline 개발

Backpropagation, 신경망

1986년 Rumelhart 최초로 backpropagation 제안, 신경망 학습 시작

Deep Learning

2006년 Geoff Hinton과 Ruslan Salakhutdinow
weight를 잘 줄 수 있도록 RBM으로 초기화
그 후 전체 신경망을 fine-tunning with backpropagation

AlexNet

2012년 Hintin lab
deep learning이 확 뜨기 시작
ImageNet classification에서 CNN을 사용해 결과 좋았음 ➡️ 이때부터 CNN 널리 사용

CNN

1950년 Hubel과 Wiesel

뇌의 특정 뉴런은 특정 방향에 반응한다는 것을 발견
➡️ topographical mapping
뉴런이 계층구조를 가진다는 것을 발견
- Simple cells -> Complex cells -> Hypercomplex cells (큰 -> 섬세 영역)

1980년 Fukushima

Neocognitron
- simple cells과 complex cells를 샌드위치 구조로 반복적으로 쌓음
  (큰 -> 섬세 영역)
- backpropagation 불가능

1998년 Yann LeCun

글자 인식에 gradient-based learning 적용
backprpagation 가능

2012년 Alex Krizhevsky

AlexNet 제안
- CNN의 현대화된 모습
1998년에 나온 것과 구조는 다르지 않으나 더 크고 깊어졌다.
- 마찬가지로 큰 -> 섬세 영역으로 특징 추출

대규모 데이터 활용, 처음으로 GPU 2대 사용
가중치 초기화를 잘했고 batch normalization 진행
ImageNet에서 엄청난 정확도

CNN 활용

이미지 분류/검색
Detection (실시간 detection을 하는 YOLO)
Segmentation (각 픽셀에 라벨링)
자율주행 (Lidar를 통해)
face recognition
pose recognition (게임에 활용 가능)
비디오 인식 (시간적 정보 활용)
의학 영상 해석/진단
은하/표지판 인식
고래 분류 / 항공지도를 통한 길과 건물 인식
image captioning
- segmentaion을 하는 CNN & text generation을 하는 RNN 동시 사용 가능
글을 보고 이미지를 만들어 내는 Open AI의 Dall-E도 CNN 사용
style transfer
- GAN 사용
- 특정 화풍으로 그림

CNN의 원리

이전에 다뤘던 Fully Connected Layer는 32x32x3 이미지를 펴서 3072x1인 벡터 x로 만들고, 가중치 W와 내적 연산을 해 1x10의 activation layer에 출력하는 방식

Convolutional Layer

Fully connected layer와 달리 Convolutional Layer는 기존의 structure을 유지한다.

Convolution layer는 filter와의 공간적 내적을 통해 한 개의 숫자를 출력한다.
➡️ 입력 이미지에 filter를 움직이면서 하나의 값을 추출

Convolve : 입력 이미지에 filter를 슬라이딩하여 내적을 구하는 것을 convolve한다고 말한다.

📌 filter의 가로/세로 크기는 선택할 수 있지만, filter의 depth는 input의 depth와 항상 같아야 한다. (모든 depth에 대해 내적이 진행되어야 하기 때문)

Convolution layer에 filter를 convolve하면 한 개의 숫자가 나온다. (convolve 한 번에 숫자 하나가 나온다.)
➡️ 식은 위 그림 참고

32x32x3 이미지에 5x5x3 filter를 좌측 상단부터 우측 하단까지 convolve한 값들을 모으면 28x28x1 이미지를 얻게 된다.
➡️ activation map

각 filter는 이미지로부터 한 개의 특징을 추출한다.
보통 CNN에서 convolution layer는 여러 개의 filter를 사용하기 때문에, filter 개수만큼의 특징을 추출할 수 있다.

위의 예제를 보면 5x5 크기의 filter가 6개가 있을 때 우리는 6개의 activation maps를 모아 28x28x6의 "새 이미지"를 얻을 수 있다.

CNN에서는 입력 이미지가 Convolution layer와 활성함수 ReLU를 통과하여 activation map을 생성하고, 이 activation map에 다시 conv. layer와 ReLU를 통과하여 다시 activation map을 생성하는 과정을 반복한다.

filter가 여러 개일 때, filter는 이미지의 특징을 단순->복잡하게 계층적으로 학습하게 된다.

첫 번째 필터 VGG-16 Conv1_1
- Low-level features인 edges, color를 학습
두 번째 필터 VGG-16 Conv3_2
- Mid-level features인 corner, blobs를 학습
세 번째 필터 VGG-16 Conv5_3
- High-level features를 학습

➡️ Convolution layer가 여러 개 쌓여 깊어질수록 이미지의 특징을 더 많이 추출

1개 filter ➡️ 1개 activation map 생성, 1개 입력 이미지 특징 추출

위의 슬라이드는 ConvNet의 각 층을 어떻게 쌓는지 보여주고 있다.

Conv. layer에 ReLU를 쌓고, Pooling layer를 쌓는 방식을 반복한다.

마지막에 Fully connected layer를 통해 이미지를 클래스별로 분류하고 스코어를 계산한다.

output size 계산

N: input size, F: filter size

stride를 통해 filter를 몇 칸씩 움직일지 정할 수 있다.

📌 슬라이딩 시 input 크기와 딱 맞아 떨어지는 stride만 사용한다.
➡️ 맞아 떨어지지 않을 경우 zero-padding을 통해 해결 가능!

zero-padding

위에서 stride가 3일 때 슬라이딩 시 input size와 맞아 떨어지지 않아 사용할 수 없었는데, 이런 경우 zero-padding을 통해 해결할 수 있다.
➡️ input image의 가장자리에 0으로 이루어진 pixel을 붙여준다.

👍장점

입력 이미지보다 작은 크기의 출력 이미지가 나오면, filter가 슬라이딩하지 못하는 입력 이미지의 모서리 부분의 정보가 누락된다.

📌 stride 1, FxF 크기의 filter를 사용할 때, (F-1)/2개의 zero padding을 하면 입력 이미지와 같은 크기의 출력 이미지(activation map)가 나온다.
➡️ 입력 이미지의 가장자리 부분의 정보까지도 출력 이미지에 잘 전달할 수 있다!

위의 슬라이드를 보면 32x32 입력 이미지에 5x5 filter를 반복하여 슬라이딩하면 출력 이미지(activation map)의 크기가 28, 24, ...로 빠르게 줄어드는 것을 볼 수 있다.
➡️ 정보가 빠르게 손실된다는 뜻
➡️ 모든 layer를 통과했을 때, 손실이 많아서 정확한 정보를 추출할 수 없다.

📌 입력 이미지와 출력 이미지의 크기가 같게 하는 이유: Convolution layer를 거치면서 이미지의 크기가 줄면, 거대한 신경망을 통과할 때 더 이상 convolve할 수 없게 된다.
➡️ zero padding을 통해 출력 이미지의 크기를 보존하고 pooling을 통해 이미지의 크기를 줄인다.