6-1 Convolutional Neural Networks (CNN)

마친자·2024년 2월 20일

[부스트코스]AI 엔지니어 기초 다지기

목록 보기

19/22

convolution한다는 것은 어떤 의미가 있을까?

해당 Convolution 필터 모양은 해당 이미지에서 찍는다고 했는데
즉, 적용하고자 하는 필터의 모양에 따라서 같은 이미지에 대해서 Convolution의 결과가 Blur가 될수 도 있고, emboss, Outline(외곽선만 따는 형태)이 될 수 있다

연산하는데 필요한 파라미터 숫자가 중요하다.
계산하는 방법: 필터 사이즈 input 채널 숫자 output 채널 숫자

일반적인 CNN 구성

Convolution layer: 도장을 찍듯이 이미지를 쭉 훑어서 값을 얻어내는 layer
pooling layer: 2x2 pooling,average pooling, max pooling, etc
- 위 두 layer의 역할 feature extraction
fully connected layer: 그걸 마지막에 다 합쳐서 내가 원하는 결과값을 만들어주는 layer
- decision making(ex. classfication)
- 요즘은 줄이고 없애는 추세(파라미터 수를 줄이기 위해서)

convolution layer 파라미터 계산

...
Dense layer(fully connected layer)파라미터 계산
convolution layer에 비해 1000배나 많다
why? convolution 오퍼레이터가 각각의 하나의 커널이 모든 위치에 대해서 동일하게 적용되기 때문
학습을 잘하기 위해서 파라미터를 줄이는게 중요한기에 요즘은 convolution layer을 깊게 쌓게 fully connected layer은 얇게 쌓는것이 일반적인 트렌드(2020 ver)

이미지에서 영역을 보지 않음(이미지에서 한 픽셀만 봄)
왜 할까?
- dimension(channel) reduction
  - depth 방향으로 되어있는 채널을 줄임
- 파라미터를 줄이면서 깊이는 깊어짐
ex)bottlenect architecture

완전 modern하지 않음(2018년도까지)
파라미터의 숫자를 고려하면서 봐야함

입력은 하나인데 네트워크가 2개로 나눠져 있음(GPU를 최대한 활용하는데 네트워크에 파라미터를 가능한대로 넣고 싶어서 2개의 gpu에 따로따로 훈련스킴)
11 X 11을 사용하는것은 좋은 선택은 아님(파라미터 수가 커지기 때문에)
key ideas
- ReLu activation(효과적인 활성함수)
  - 선형모델의 성질을 보존
  - 경사하강법의 최적화가 쉬움
  - 좋은 일반화
  - 기울기 소실문제를 극복
- 2 GPU 사용
- Local response normalization(요즘은 잘 안씀), Overlapping pooling
- Data augumentation
- Dropout

3 x 3 convolution 필터왜 사용했을까?

3 X 3, 5 X 5, 11x11 점점 커지면서의 이점은 하나의 convolution 필터가 찍었을때 고려되는 인풋의 크기가 커진다는 점(Receptive field)
Receptive field: 하나의 convolution 피쳐 맵의 값을 얻기 위해서 고려할 수 있는 입력의 스페셜 demension
- 3 x 3을 두번 거쳐지게 되면 5 x 5의 Receptive field가 똑같음
- but, 파라미터 수는 5x5가 더 많다.
- 이런 이유 때문에 최근 논문들은 3x3 또는 5x5를 사용