[머신러닝] 머신러닝 특강 - 분류분석

HEY! MIN·2024년 11월 27일

📚 1. 학습 목표

분류 문제의 성능 지표 이해하기
적합한 머신러닝 모델 탐구
실제 코드 실습을 통해 분류 문제 해결


📌 2. 분류 모델이란?

분류 모델은 타겟 변수(정답)가 범주형일 때 사용하는 머신러닝 알고리즘입니다.
예를 들어,
"스팸 메일 여부(스팸/스팸 아님)"
"환자의 질병 여부(Yes/No)"
참고: 타겟 변수가 연속형이라도 범주형 변수로 변환하면 분류 모델을 적용할 수 있습니다.


📊 주요 성능 지표

머신러닝 분류 모델의 성능을 평가할 때 사용하는 주요 지표는 아래와 같습니다.

1️⃣ 혼동 행렬 (Confusion Matrix)

구분실제 양성 (P)실제 음성 (N)
예측 양성 (P)True Positive (TP)False Positive (FP)
예측 음성 (N)False Negative (FN)True Negative (TN)
  • TP (True Positive): 실제 양성을 양성으로 예측한 경우
  • FP (False Positive): 실제 음성을 양성으로 예측한 경우
  • TN (True Negative): 실제 음성을 음성으로 예측한 경우
  • FN (False Negative): 실제 양성을 음성으로 예측한 경우

2️⃣ 성능 지표 공식

지표설명공식
정확도 (Accuracy)전체 데이터에서 실제 값을 제대로 맞춘 비율Accuracy = (TP + TN) / (TP + TN + FP + FN)
정밀도 (Precision)모델이 양성으로 예측한 데이터 중 실제 양성의 비율Precision = TP / (TP + FP)
민감도 (Recall)실제 값이 양성인 데이터 중에서 모델이 양성으로 잘 예측한 비율 (재현율이라고도 함)Recall = TP / (TP + FN)
F1 Score정밀도와 재현율의 조화 평균F1 Score = 2 × (Precision × Recall) / (Precision + Recall)

3️⃣ 지표 활용 팁

  • 정확도(Accuracy)는 데이터의 불균형이 심할 경우 한계가 있음.
  • 정밀도(Precision)는 "False Positive를 줄이는 것이 중요한 경우" 유용.
  • 민감도(Recall)는 "False Negative를 줄이는 것이 중요한 경우" 사용.
  • F1 Score는 정밀도와 민감도를 균형 있게 평가해야 할 때 적합.

🤖 4. 주요 분류 모델 소개

1) 로지스틱 회귀 (Logistic Regression)
주요 개념: 선형 회귀를 기반으로 사건 발생 확률을 예측. 주로 타겟 변수가 이진 분류(Yes/No)일 때 사용.
수학적 기초: Odds와 Logit 개념을 활용하여 확률을
0에서 1 사이 값으로 변환.
2) 랜덤 포레스트 (Random Forest)
여러 개의 의사결정나무(Decision Trees)를 결합해 성능을 향상.
앙상블 기법 활용:
배깅(Bagging): 여러 모델을 독립적으로 학습 후 결과를 결합.
투표 방식: 다수결로 최종 결과를 선택.
특징 중요도 (Feature Importance): 각 변수의 영향도를 확인 가능.
3) 그 외 자주 사용하는 모델
K-최근접 이웃 (K-NN)
나이브 베이즈 (Naive Bayes)
서포트 벡터 머신 (SVM)
다층 퍼셉트론 (MLP)

profile
It's a, it's the Pleasure Shop

0개의 댓글