분류 문제의 성능 지표 이해하기
적합한 머신러닝 모델 탐구
실제 코드 실습을 통해 분류 문제 해결
분류 모델은 타겟 변수(정답)가 범주형일 때 사용하는 머신러닝 알고리즘입니다.
예를 들어,
"스팸 메일 여부(스팸/스팸 아님)"
"환자의 질병 여부(Yes/No)"
참고: 타겟 변수가 연속형이라도 범주형 변수로 변환하면 분류 모델을 적용할 수 있습니다.
머신러닝 분류 모델의 성능을 평가할 때 사용하는 주요 지표는 아래와 같습니다.
| 구분 | 실제 양성 (P) | 실제 음성 (N) |
|---|---|---|
| 예측 양성 (P) | True Positive (TP) | False Positive (FP) |
| 예측 음성 (N) | False Negative (FN) | True Negative (TN) |
| 지표 | 설명 | 공식 |
|---|---|---|
| 정확도 (Accuracy) | 전체 데이터에서 실제 값을 제대로 맞춘 비율 | Accuracy = (TP + TN) / (TP + TN + FP + FN) |
| 정밀도 (Precision) | 모델이 양성으로 예측한 데이터 중 실제 양성의 비율 | Precision = TP / (TP + FP) |
| 민감도 (Recall) | 실제 값이 양성인 데이터 중에서 모델이 양성으로 잘 예측한 비율 (재현율이라고도 함) | Recall = TP / (TP + FN) |
| F1 Score | 정밀도와 재현율의 조화 평균 | F1 Score = 2 × (Precision × Recall) / (Precision + Recall) |
1) 로지스틱 회귀 (Logistic Regression)
주요 개념: 선형 회귀를 기반으로 사건 발생 확률을 예측. 주로 타겟 변수가 이진 분류(Yes/No)일 때 사용.
수학적 기초: Odds와 Logit 개념을 활용하여 확률을
0에서 1 사이 값으로 변환.
2) 랜덤 포레스트 (Random Forest)
여러 개의 의사결정나무(Decision Trees)를 결합해 성능을 향상.
앙상블 기법 활용:
배깅(Bagging): 여러 모델을 독립적으로 학습 후 결과를 결합.
투표 방식: 다수결로 최종 결과를 선택.
특징 중요도 (Feature Importance): 각 변수의 영향도를 확인 가능.
3) 그 외 자주 사용하는 모델
K-최근접 이웃 (K-NN)
나이브 베이즈 (Naive Bayes)
서포트 벡터 머신 (SVM)
다층 퍼셉트론 (MLP)