Model & HyperParams에 관한 고찰(~ing)

안민기·2023년 4월 16일
0

Layer

-어느 논문에서 읽은 효율적인 신경망 설계의 3가지 방법 생각나면 수정!

  1. Deep & Efficiency
    • 하나의 Layer에 뉴런의 개수가 충분하면 아주 복잡한 함수도 모델링이 가능하다.
      하지만 같은 파라미터를 가질 때 얉은 신경망 보다 깊은 신경망이 훨씬 효율적이다.(+성능도 향상됨)
    • 입력층과 가까운 아래쪽 layer은 저수준의 구조(edge,blob,선)를 잘 찾아낸다.
    • 중간 layer는 저수준의 구조를 연결해 도형(사각형,원)같이 중간 수준의 구조를 모델링 함
    • 출력층과 가까운 위쪽 layer는 고수준의 구조를 모델링한다. (얼굴,texture)
  2. 학습 속도 & 일반화
    • 계층 구조의 모델 설계는 새로운 데이터의 일반화 성능과 수렴을 돕는다.
  3. 뉴런 개수
    • 보통 입력층은 크게 하며 보통 줄어드는 깔때기 구조를 갖음
    • 그러나 모든 층의 크기를 갖게 하는게 성능이 높거나 같음
      • 없어진 정보는 다시 찾을 수 없다.
      • 스트레츠 팬츠 : 바지 사이즈를 찾느라 시간 낭비하지 말고 그냥 큰 바지를 사고 줄여라 -> maxmin

Batch size

  • 작은 배치 사이즈 : 이상치에 민감하다, 빠른 수렴이 된다.
  • 큰 배치 사이즈 : 훈련 초반 불안정할 수 있음 , 512 이상의 여러대의 연산장치를 사용할 경우 일반화 성능이 떨어질 수 있다.
  • 즉, 1개의 관측장비로 100번 업데이트하냐 , 100개의 관측장비로 1번 업데이트 하냐의 차이
profile
Trendy AI Developer

0개의 댓글