[AlexNet]ImageNet Classification with Deep Convolutional Neural Networks(2012)
경사 하강법을 사용한 훈련에서 포화 비선형 함수(saturating nonlinearities)에 비해 빠른 비포화 비선형 함수(non-saturating nonlinearity)인 ReLU를 사용했다.
ReLU의 결과 값이 너무 커서 주변 뉴런에 영향을 주는 것을 방지하기 위한 normalization 기법
- : 에 존재하는 픽셀에 대해 번째 커널을 적용하여 얻은 결과에 ReLU를 씌운 값
- : 레이어에 존재하는 전체 커널의 수
- : 인접하다고 판단할 범위 값(하이퍼 파라미터)
- : 입력 이미지의 너비(높이)
- : 커널의 너비(높이)
- : 패딩의 크기
- : stride의 크기
Horizontal Reflection and Image Translations
- 이미지를 좌우반전 시키고, 랜덤으로 227X227크기의 패치를 얻어낸다.
- 이는 이론상 최대 하나의 이미지가 29X29X2로 1682개의 패치(데이터)를 얻을 수 있다.
- paper 내에서 alexnet을 테스트할때에는 중앙의 패치+각 모서리 4개의 패치+ 패치마다 좌우반전으로 하나의 이미지로 10개의 패치를 입력으로 넣었다.
RGB channels의 강도조절
- 주성분분석(PCA)를 통해 이미지의 RGB 채널의 주성분을 찾고, 평균 0과 표준편차 0.1을 갖는 가우시안 분포에서 추출한 임의의 값들을 해당 주성분에 곱하여 원본 이미지의 색상을 조절하여 변형을 주었다.
- 이는 원래의 라벨을 해치지 않으며 색상의 변형을 일으킨다.