Layer
-어느 논문에서 읽은 효율적인 신경망 설계의 3가지 방법 생각나면 수정!
- Deep & Efficiency
- 하나의 Layer에 뉴런의 개수가 충분하면 아주 복잡한 함수도 모델링이 가능하다.
하지만 같은 파라미터를 가질 때 얉은 신경망 보다 깊은 신경망이 훨씬 효율적이다.(+성능도 향상됨)
- 입력층과 가까운 아래쪽 layer은 저수준의 구조(edge,blob,선)를 잘 찾아낸다.
- 중간 layer는 저수준의 구조를 연결해 도형(사각형,원)같이 중간 수준의 구조를 모델링 함
- 출력층과 가까운 위쪽 layer는 고수준의 구조를 모델링한다. (얼굴,texture)
- 학습 속도 & 일반화
- 계층 구조의 모델 설계는 새로운 데이터의 일반화 성능과 수렴을 돕는다.
- 뉴런 개수
- 보통 입력층은 크게 하며 보통 줄어드는 깔때기 구조를 갖음
- 그러나 모든 층의 크기를 갖게 하는게 성능이 높거나 같음
- 없어진 정보는 다시 찾을 수 없다.
- 스트레츠 팬츠 : 바지 사이즈를 찾느라 시간 낭비하지 말고 그냥 큰 바지를 사고 줄여라 -> maxmin
Batch size
- 작은 배치 사이즈 : 이상치에 민감하다, 빠른 수렴이 된다.
- 큰 배치 사이즈 : 훈련 초반 불안정할 수 있음 , 512 이상의 여러대의 연산장치를 사용할 경우 일반화 성능이 떨어질 수 있다.
- 즉, 1개의 관측장비로 100번 업데이트하냐 , 100개의 관측장비로 1번 업데이트 하냐의 차이