Dropout
등을 통해 적절한 복잡도의 모델 탐색L2 = ||w||^2 = ∑w^2
0
에 가까워짐Ridge
L2 규제
의 가중치 제곱을 절대값으로 변환0
으로L1 = ||w|| = ∑|w|
Lasso
신경망 학습이란?
: loss function 값을 최소화하는 매개변수 도출
매개변수 최적화
: loss funtion 값 최소화를 위한 매개변수의 최적값을 찾는 과정
SGD
SGD
+ 관성물리법칙AdaGrad
Adam
모멘텀
+ AdaGrad
Hyper Parameter
: 사람이 직접 설정하는 매개변수
: 뉴런 수, 학습률, 배치 크기, 은닉층 수 등
학습률
: 기울기 방향으로 빠르게 이동하는 정도
: 학습률 ∝ 1/학습시간
, 학습률 ∝ 발산 정도
미니배치 크기
: 전체 훈련 데이터를 Batch 크기로 나눈 것
: 배치 크기 ∝ 병렬 연산 수
epoch
: 훈련 데이터가 신경망을 통과한 횟수
Iteration
: 하나의 미니배치 학습 시, 1Iteration = 1회 파라미터 업데이트
: 미니배치 수 = Iteration 수
은닉층 수
: 은닉층 수 증가 = 특정 훈련 데이터 최적화
: 모든 은닉층의 뉴런 수가 동일한 것이 더 효과적
Bagging
, Boosting
, Random Forest
SSE
: ∑(실제값 - 예측값)^2
결정계수 R^2
: 회귀모형이 실제값에 적합한 비율
MAE
: 1/n * ∑|실제값 - 예측값|
MAPE
: MAE
에서 실제값에 대한 상대적 비율 고려
특이도(Specificity)
: 음성 중 실제 음성
: TN / TN + FP
정밀도(Precision)
: 양성 중 실제 양성
: TP / TP + FP
재현율(Recall)
: 전체 양성 중 맞춘 양성
: TP / TP + FN
정확도(Accuracy)
: 전체 수 중 실제값을 맞춘 수
: TP + FN / TP + TN + FP + FN
Dunn Index
, 실루엣 계수
지지도, 신뢰도 > 최소지지도