⑫ 🤖 Machine Learning 3일차 - 분류검정

JItzel·2025년 12월 13일

FN TN TP accuracy confusion matrix f1 score fp machine learning precision recall 빅데이터분석가과정 재현율 정밀도 조화평균 혼돈행렬

🐡 Machine_learning

목록 보기

12/14

분류 성능 평가지표 (Confusion Matrix, F1-Score)

분류 모델 평가시 정확도 99%가 진정한 모델 성능이라고 할 수 있을까?
암 환자 진단이나 불량품 검출처럼 데이터가 불균형한 경우, 정확도 외에 정밀도(Precision), 재현율(Recall), F1-Score를 반드시 확인해야 한다.

1. 혼동 행렬 (Confusion Matrix)

모델이 예측한 값과 실제 정답이 얼마나 일치하는지를 표로 나타낸 것

구분	예측: Positive (1)	예측: Negative (0)
실제: Positive (1)	TP (True Positive) : 정탐 (1을 1로 잘 맞춤)	FN (False Negative) : 미탐 (1인데 0이라고 놓침)
실제: Negative (0)	FP (False Positive) : 오탐 (0인데 1이라고 잘못 우김)	TN (True Negative) : 정탐 (0을 0으로 잘 맞춤)

4가지 기본 요소
앞글자 (T/F): 맞췄니? (True/False)
뒷글자 (P/N): 뭐라고 예측했니? (Positive/Negative)

2. 주요 평가지표 3대장

1) 정확도 (Accuracy)

공식: $\frac{TP + TN}{Total}$
의미: 전체 데이터 중 맞게 예측한 비율.
한계: 불균형한 데이터에서는 무용지물
예) 암 환자가 100명 중 1명뿐일 때, 무조건 "정상"이라고만 찍어도 정확도는 99%가 나온다.

2) 정밀도 (Precision)

공식: $\frac{TP}{TP + FP}$
의미: 모델이 "양성(1)이야!"라고 예측한 것 중 실제 양성의 비율
중요한 경우: FP(오탐)를 줄여야 할 때
예) 스팸 메일 분류 (일반 메일을 스팸으로 분류하면 큰일 남)

3) 재현율 (Recall)

공식: $\frac{TP}{TP + FN}$
의미: 실제 양성(1)인 데이터 중 모델이 놓치지 않고 찾은 비율. (민감도라고도 함)
중요한 경우: FN(미탐, 놓침)을 줄여야 할 때
예) 암 환자 진단 (암 환자를 정상으로 진단하면 생명이 위험함)

3. F1-Score (조화평균의 마법)

데이터가 불균형할 때 가장 선호되는 지표. 정밀도와 재현율이 어느 한쪽으로 치우치지 않고 균형을 이룰 때 높은 값

왜 '산술평균'이 아니라 '조화평균'일까?
$F1 = 2 \times \frac{Precision \times Recall}{Precision + Recall}$
조화평균(Harmonic Mean)은 역수의 산술평균이다.
비율이나 속도처럼 편차가 큰 값들의 평균을 구할 때 사용한다.

예시 (평균 속도) 🚗
갈 때 100km/h, 올 때 0km/h라면?
산술평균: 50km/h (중간값) $\rightarrow$ 하지만 실제로는 영원히 못 돌아왔으므로 속도는 0이어야 한다.
조화평균: 0km/h $\rightarrow$ 작은 값에 가중치를 두어 페널티를 크게 부여한다.
F1-Score의 특징: 정밀도와 재현율 중 하나라도 0에 가까우면 점수가 확 떨어짐.
따라서 두 지표를 골고루 잘 챙겨야 높은 점수를 받을 수 있다.

원리 이해

import numpy as np

# 가상의 혼동 행렬 데이터
TP = 50   # 암 환자를 암이라고 맞춤
TN = 40   # 정상을 정상이라고 맞춤
FP = 10   # 정상을 암이라고 잘못 예측 (오탐)
FN = 5    # 암 환자를 정상이라고 놓침 (미탐, 위험!)

total = TP + TN + FP + FN

# 1. 정확도 (Accuracy)
accuracy = (TP + TN) / total

# 2. 정밀도 (Precision) : 예측(P) 분모
precision = TP / (TP + FP)

# 3. 재현율 (Recall) : 실제(P) 분모
recall = TP / (TP + FN)

# 4. F1-score (조화평균)
f1 = 2 * (precision * recall) / (precision + recall)

print(f"정확도 (Accuracy): {accuracy:.3f}")   # 0.857
print(f"정밀도 (Precision): {precision:.3f}") # 0.833
print(f"재현율 (Recall):    {recall:.3f}")    # 0.909
print(f"F1-score:           {f1:.3f}")        # 0.870

Scikit-learn 활용 (Pima Indians Diabetes)

from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
import pandas as pd

# 데이터 준비 (가정)
# x_train, x_test, y_train, y_test = train_test_split(...)
# model.fit(x_train, y_train)

# 예측 수행
pred = model.predict(x_test) # 테스트 데이터로 예측

# 평가 지표 출력
print('정확도 (Accuracy) : ', accuracy_score(y_test, pred))
print('정밀도 (Precision): ', precision_score(y_test, pred))
print('재현율 (Recall)   : ', recall_score(y_test, pred))
print('F1 Score          : ', f1_score(y_test, pred))

# 실행 결과 예시
# 정확도    :  0.78125
# 정밀도    :  0.7358
# 재현율    :  0.5820  <-- 재현율이 상대적으로 낮음 (실제 환자를 많이 놓침)
# F1 Score  :  0.6500  <-- 재현율 때문에 F1 점수도 낮아짐