본 글에서는 논문에서 등장한 공식이나 숫자 및 기록을 자세히 살피거나 모든 내용을 세세히 짚고 넘어가지는 않겠다. 주관적 요약과 해석을 통해 중요한 키워드를 뽑는 정도로 진행할 계획이다. 이후에 뽑은 키워드별로 추가 포스팅을 진행하며 좀 더 자세한 내용을 알아보려고 한다.
p.s. 본 글은 오타와 오역이 굉장히 많으니 사전에 양해를 구한다.(몇 번씩 다시 읽으며 고쳤으나 늘 새롭고 짜릿하다...)
기계 학습의 성능을 향상시키는 방법
1) 더 큰 데이터셋 수집
2) 더 강력한 모델 설계
3) 더 나은 Overfitting 방지 기법 사용
Label-preserving transformations로 증강시키면 비교적 작은 데이터셋(수만 개의 이미지)으로도 간단한 인식 작업 가능
하지만 현실의 객체는 상당한 가변성을 가지기에 더 큰 데이터셋이 필요
(논문 기준으로 문단마다 끊어서 수평선 삽입)
[그림 1] ReLU(실선) vs tanh(점선)
ReLU가 6배 빠르게 25% 오류율에 도달
[그림 2] CNN의 아키텍처에 대한 그림으로, 두 GPU 간의 책임에 대한 설명을 명시적으로 보여 준다. 한 GPU는 그림의 맨 위에 layer 부분을 실행하는 반면 다른 GPU는 맨 아래에 layer 부분을 실행한다. GPU는 특정 layer에서만 통신한다. 네트워크의 입력은 150,528차원이며, 네트워크의 나머지 층에 있는 neuron의 수는 253,440–186,624–64,896–64,896–43,264–4096–4096–1000으로 주어진다.