ImageNet Classification with Deep Convolutional Neural Networks (AlexNet) 리뷰

Hoon82의 velog·2022년 9월 23일
0
post-thumbnail

5 Details of learning

학습 세부사항

배치 크기는 128개, 모멘텀은 0.9, 가중치 감소는 0.0005인
확률적 경사하강법을 사용하여 모델을 훈련했습니다.
우리는 이 작은 무게 감소가 모델이 학습하는데 중요하다는 것을 발견했습니다. 즉, 여기서 가중치 감소는 단순한 정규화가 아니라 모델의 학습 오류를 줄입니다. 가중치 w에 대한 업데이트 규칙은

여기서 i는 반복 지수, v는 운동량 변수, e는 학습률입니다. <dL/dw>식은 i번째 batch에서 wi를 사용하여 구한 gradient들의 평균입니다.

표준 편차가 0.01인 0 평균 가우스 분포에서 각 계층의 가중치를 초기화했습니다. 우리는 상수 1을 사용하여 두 번째, 네 번째 및 다섯 번째 컨벌루션 계층뿐만 아니라 완전히 연결된 숨겨진 계층에서도 뉴런 편향을 초기화했습니다. 이 초기화는 ReLU에 양의 입력을 제공하여 학습의 초기 단계를 가속화합니다. 나머지 계층의 뉴런 편향을 상수 0으로 초기화했습니다.

모든 계층에 대해 동일한 학습률을 사용했으며, 훈련 내내 수동으로 조정했습니다. 우리가 따랐던 휴리스틱은 유효성 검사 오류율이 현재 학습률로 개선되지 않을 때 학습률을 10으로 나누는 것입니다. 학습률은 0.01로 초기화되었고 종료 전에 3배 감소했습니다. 2개의 NVIDIA GTX 580 3GB GPU가 5~6일이 소요되는 120만 개의 이미지 학습 세트를 통해 대략 90주기 동안 네트워크를 학습했습니다.

profile
나는 킹고수다!!

0개의 댓글