모델 평가

saucedong·2022년 6월 19일

DE ds

데이터 과학자와 데이터 엔지니어를 위한 인터뷰 문답집

목록 보기

2/4

평가 지표의 한계

평가지표

$Accuracy = {n_{correct} \over n_{total}}$

간단한 평가 지표
클래스가 뷸균형한 경우 유효하지 않음

$F1 = {{2*precision*recall} \over {precision+recall}}$

정밀도(precision)와 재현율(recall)의 조화 평균
정밀도(precision): 분류기가 양성 샘플이라 분류한 것 중에서 실제 양성 샘플인것의 비율
재현율(recall): 실제 양성 샘플인 것 중에서 분류기가 정확히 분류해 낸 양성 샘플의 비율

$RMSE = \sqrt{\sum_{i=1}^n(y_i-\hat{y_i})^2 \over n}$

회귀모델에서 사용하는 지표
이상치에 매우 민감

$MAPE = \sum_{i=1}^n\vert{y_i-\hat{y_i}\over{y_i}}\vert \times {100 \over n}$

각 오차들을 정규화
RMSE에 비해 이상치에 좀 더 견고함

ROC 곡선

이진 분류에서 사용되는 지표
P-R 곡선보다 더 견고함
가로축: 거짓 양성 비율 $FPR = {FP \over N}$
세로축: 실제 양성 비율 $TPR = {TP \over P}$

AUC

ROC 커브의 면적을 통해서 구할 수 있는 면적
값이 클수록 분류기의 성능이 좋다는 것을 의미함

모델 평가 방법

홀드아웃 방법

훈련 데이터와 테스트 데이터를 일정비율(ex, 7:3)으로 나누고 성능 평가
초기 데이터를 어떻게 분류하는지에 큰 영향을 받음

교차검증

k-fold
- k개 그룹의 샘플로 나누어서 각각 검증
LOOCV
- 1개의 샘플만로 평가하고 나머지로 모델 학습
- 총 n번의 평가가 필요하므로 많은 시간이 걸림

부트스트래핑

샘플이 적어서 분할 방법이 힘들 경우 사용
n개의 샘플 집합에서 n번의 복원 추출법을 사용

하이퍼파라미터 튜닝

그리드 탐색
- 그리드를 통해서 최적값을 찾음
- 최적값을 못찾을 수도 있음
랜덤 탐색
- 그리드와 다르게 상한, 하한 값을 설정하고 랜덤으로 탐색
- 일반적으로 그리드 탐색보다 빠름
- 결과가 최적값이라는 보장을 하기 힘듬
베이지안 최적화 알고리즘
- 이전의 샘플 정보들을 활용
- 극소점에 빠질 수도 있음
- 탐색과 이용을 통해 균형점을 잡아서 극소점에 빠지는 단점 보안

과적합과 과소적합

과적합 줄이는 법

많은 데이터 확보
모델 복잡도 낮추기
정규화 사용
앙상블 학습 방법 사용

과소적합 줄이는 법

새로운 피처 추가
모델의 복잡도 증가
정규화 계수를 줄임

saucedong

이전 포스트

피처 엔지니어링

다음 포스트