[머신러닝] 머신러닝 특강 - 분류분석

HEY! MIN·2024년 11월 27일

📚 1. 학습 목표

분류 문제의 성능 지표 이해하기
적합한 머신러닝 모델 탐구
실제 코드 실습을 통해 분류 문제 해결

📌 2. 분류 모델이란?

분류 모델은 타겟 변수(정답)가 범주형일 때 사용하는 머신러닝 알고리즘입니다.
예를 들어,
"스팸 메일 여부(스팸/스팸 아님)"
"환자의 질병 여부(Yes/No)"
참고: 타겟 변수가 연속형이라도 범주형 변수로 변환하면 분류 모델을 적용할 수 있습니다.

📊 주요 성능 지표

머신러닝 분류 모델의 성능을 평가할 때 사용하는 주요 지표는 아래와 같습니다.

1️⃣ 혼동 행렬 (Confusion Matrix)

구분	실제 양성 (P)	실제 음성 (N)
예측 양성 (P)	True Positive (TP)	False Positive (FP)
예측 음성 (N)	False Negative (FN)	True Negative (TN)

TP (True Positive): 실제 양성을 양성으로 예측한 경우
FP (False Positive): 실제 음성을 양성으로 예측한 경우
TN (True Negative): 실제 음성을 음성으로 예측한 경우
FN (False Negative): 실제 양성을 음성으로 예측한 경우

2️⃣ 성능 지표 공식

지표	설명	공식
정확도 (Accuracy)	전체 데이터에서 실제 값을 제대로 맞춘 비율	Accuracy = (TP + TN) / (TP + TN + FP + FN)
정밀도 (Precision)	모델이 양성으로 예측한 데이터 중 실제 양성의 비율	Precision = TP / (TP + FP)
민감도 (Recall)	실제 값이 양성인 데이터 중에서 모델이 양성으로 잘 예측한 비율 (재현율이라고도 함)	Recall = TP / (TP + FN)
F1 Score	정밀도와 재현율의 조화 평균	F1 Score = 2 × (Precision × Recall) / (Precision + Recall)

3️⃣ 지표 활용 팁

정확도(Accuracy)는 데이터의 불균형이 심할 경우 한계가 있음.
정밀도(Precision)는 "False Positive를 줄이는 것이 중요한 경우" 유용.
민감도(Recall)는 "False Negative를 줄이는 것이 중요한 경우" 사용.
F1 Score는 정밀도와 민감도를 균형 있게 평가해야 할 때 적합.

🤖 4. 주요 분류 모델 소개

1) 로지스틱 회귀 (Logistic Regression)
주요 개념: 선형 회귀를 기반으로 사건 발생 확률을 예측. 주로 타겟 변수가 이진 분류(Yes/No)일 때 사용.
수학적 기초: Odds와 Logit 개념을 활용하여 확률을
0에서 1 사이 값으로 변환.
2) 랜덤 포레스트 (Random Forest)
여러 개의 의사결정나무(Decision Trees)를 결합해 성능을 향상.
앙상블 기법 활용:
배깅(Bagging): 여러 모델을 독립적으로 학습 후 결과를 결합.
투표 방식: 다수결로 최종 결과를 선택.
특징 중요도 (Feature Importance): 각 변수의 영향도를 확인 가능.
3) 그 외 자주 사용하는 모델
K-최근접 이웃 (K-NN)
나이브 베이즈 (Naive Bayes)
서포트 벡터 머신 (SVM)
다층 퍼셉트론 (MLP)

HEY! MIN

It's a, it's the Pleasure Shop

이전 포스트

[머신러닝] 머신러닝 빌드업③

다음 포스트