[ML] 모델 평가

HanSol Choi·2024년 6월 18일

Confusion Matrix

정확도 (Accuracy)
전체 예측한 것 중 올바른 예측의 비율
정밀도 (Precision)
긍정(positive)으로 예측한 것 중 실제로 맞힌 비율
민감도 (Sensitivity, Recall 재현율)
실제 positive를 얼마나 잘 예측했는지를 나타내는 지표
특이도 (Specificity)
실제 negative를 얼마나 잘 예측했는지를 나타내는 지표

F1 Score

-불균형 데이터의 분류 문제에서의 평가척도로 사용
-정밀도와 민감도의 조화 평균. 낮은 값에 더 많은 가중치 부여
-데이터가 불균형한 상태에서 Accuracy로 성능을 평가하기엔 데이터 편향성이 나타나 성능 척도로 사용하기에는 부적합
-거짓양성과 거짓음성의 중요성 사이의 균형을 유지해야 하는 경우 사용

클래스 비대칭 데이터 처리

클래스 간 비대칭

-데이터 세트 내에서 한 클래스의 샘플 수가 다른 클래스에 비해 현저히 많거나 적은 경우
-이러한 비대칭 데이터는 모델이 다수 클래스에 치우쳐 학습하는 경향을 가지게 만들어 소수 클래스의 예측 성능이 저하될 수 있음

데이터 레벨에서의 접근 방법
- 오버샘플링
  소수 클래스의 샘플을 증가시켜 데이터 세트의 균형을 맞추는 방법
  SMOTE(Synthetic Minority Over-sampling Technique) 같은 기법을 사용하여 소수 클래스의 샘플을 합성적으로 생성
- 언더샘플링
  다수 클래스의 샘플을 줄여 데이터 세트의 균형을 맞추는 방법
  데이터 손실을 초래하 수 있으므로 주의
알고리즘 레벨에서의 접근 방법
- 가중치 부여(Weighting)
  소수 클래스의 샘플에 더 높은 가중치를 부여하여 모델 학습 과정에서 소수 클래스의 더 큰 영향력을 갖도록 하는 방법
평가 지표의 선택
- 정밀도, 재현율 및 F1점수 사용
  비대칭 데이터에서는 정확도만으로 모델 성능 평가가 적합하지 않음
  정밀도와 재현율의 조화 평균인 F1 점수를 포함하여 전체적인 모델 성능 평가 필요
기타
- 코스트-센서티브 학습 (Cost-sensitive Learning)
  소수 클래스의 오류에 더 높은 비용을 부여
  모델이 소수 클래스의 샘플을 더 주의 깊게 처리하도록 함
- 특징 선택 (Feature Selection)
  소수 클래스를 더 잘 구별할 수 있는 가장 유의미한 특징 선택

HanSol Choi

ML/DL Study,기록📝

이전 포스트

[데이터 전처리] 스케일링 (Scaling)

다음 포스트

[ML] 모델 평가

Confusion Matrix

F1 Score

클래스 비대칭 데이터 처리

클래스 간 비대칭

[데이터 전처리] 스케일링 (Scaling)

[ML] 앙상블 (Ensemble)

0개의 댓글