딥러닝기초_0513

allzeroyou·2022년 5월 13일

딥러닝기초

목록 보기

17/22

Preview

올바른 학습
가중치 매개변수의 초깃값 설정
히스토그램
학습 과정 => 하이퍼파라미터 어떻게 잡음? => 학습 효과 달라짐

골고루 분포 => 표준편차 어떻게?

Xavier 초깃값(시그모이드 함수)
He 초기값(ReLU)

배치 정규화

정규화?

A+ => 4.5만점
A+ => 4.3만점일수도
절댓값으로 비교 => 맥시멈이 달라 비교 x

0~1 정규화
0: 최솟값
1: 최댓값

분포 파악을 위함

각 층의 활성화 값의 분포가 적당히 퍼질 경우 학습이 원활하게 수행

Affine과 ReLU 사이 Batch Norm(배치 정규화 계층)을 신경망에 삽입.

장점
1. 학습 속도의 개선
2. 초기값에 의존x
3. 오버피팅 억제

배치 정규화의 구현

학습 시 미니배치 단위로 정규화
데이터 분포가 평균이 0, 분산이 1이 되도록 정규화

배치정규화 계층마다 데이터의 고유한 확대(Scale)와 이동(Shift)변환을 수행

배치 정규화의 효과

거의 모든 경우에서 정규화를 사용할 때의 학습 진도가 빠르게 나타남

배치정규화를 왜 사용?
배치정규화 개념을 잘 알아두자

바른 학습

오버피팅이 일어나는 경우

매개변수가 많고 표현력이 높은 모델
훈련 데이터가 적음

오버피팅 발생 시키기

훈련 데이터 중 300개만 사용
7층 네트워크 사용, 각 층은 100개의 노드
ReLU 활성화 함수 사용

가중치 감소만으로 오버피팅에 대한 대응 어려움

드롭아웃

뉴런을 임의로 삭제하면서 학습
복잡한 일반 신경망(모든 뉴런이 다음 계층의 뉴런과 연결) => 특정 뉴런을 제거 => 간소화된 모델(오버피팅 억제)

훈련 때 은닉층의 뉴런을 무작위로 골라 삭제
시험 때 모든 뉴런에 신호 전달(각 뉴런의 출력에 훈련 때 삭제 안한 비율을 곱해 출력)

적절한 하이퍼파라미터 값 찾기

학습 시,
훈련 데이터: 학습진행
시험 데이터: 범용 성능 평가

데이터 셋 구성

훈련 데이터
매개변수 학습
검증 데이터
하이퍼파라미터의 성능 평가
시험 데이터
신경망의 범용 성능 평가

=> 훈련 데이터 중 20% 정도를 검증 데이터로 분리하는 것이 필요

다음 시간 6장 마무리
CNN(합성곱 신경망), 플젝할 예정입니다.

allzeroyou

모든 건 zero 부터, 차근차근 헛둘헛둘

이전 포스트

딥러닝기초_0511

다음 포스트

딥러닝기초_0513