
당시 기준(현재와는 맞지않음)

AlexNet의 전체 achitecture이다.
tanh, sigmoid 활성함수에 비해 ReLU는 학습 속도가 더 빠르다.

점선은 tanh, 실선은 ReLU이며, CIFAR-10 데이터셋에 학습 에러율을 나타낸 그래프이다.
ReLU가 tanh보다 6배 빨리 25%에 도달했다.
이처럼 빠른 학습 속도는 더 큰 데이터셋에 학습된 큰 모델의 성능에 긍정적인 영향을 미친다.
당시 학습에 GTX 580 3GB GPU 두 개를 사용하여 학습했다고 한다.
GPU의 성능이 부족했기 때문에 두 개의 GPU를 병렬로 사용한다.
각 GPU에 커널(또는 뉴런)의 반을 연산했고, 모든 lyaer에 적용한 것이 아닌 특정 layer에 적용했다. (아키텍쳐 그림에서 노란색 원으로 그려진 부분)
이유는 computation이 허용 가능한 양을 정밀하게 조정할 수 있기 때문이라고 한다.
학습 시간도 한 개의 GPU를 사용할 때보다 조금 더 감소한다.
ReLU는 양수의 입력값에 대해선 그대로 사용하기 때문에 높은 픽셀값이 주변의 픽셀값에 영향을 줄 수 있다. 이를 방지하기 위해서 Local response normalization은 다른 activation map에 같은 위치에 있는 픽셀끼리 정규화를 한다.
AlexNet에서는 stride의 크기를 커널 크기보다 작게하여 겹치는 overlapping pooling을 사용한다.


dropout : hidden layer에서 뉴런의 output을 50% 확률로 0으로 만드는 방식으로 overfitting을 방지하기 위해 사용한다. (AlexNet에서는 두 fully connected layer에서 사용한다.)

GPU의 발전은 정말 어마어마한 것 같다.
워낙 오래된 모델이지만 더욱 기초를 다지기 위해서 차근히 리뷰를 진행할 생각이다.
Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2017), ImageNet classification with deep convolutional neural networks, Communications of the ACM, 60(6), 84-90.