데이터 분석 35일
핵심 포인트 요약
머신러닝이란?
→ 컴퓨터가 데이터로부터 스스로 패턴을 학습해 예측/분류를 수행하는 기술
머신러닝 3요소
→ 데이터, 알고리즘, 컴퓨팅 파워
AI, 머신러닝, 딥러닝의 관계
→ 딥러닝은 머신러닝의 하위, 머신러닝은 AI의 하위
머신러닝의 주요 분류
- 지도학습: 분류, 회귀
- 비지도학습: 군집화, 차원축소
- 강화학습: 보상 기반 학습
머신러닝 vs 통계
→ 머신러닝은 예측력 중시, 통계는 가설검증 중시
✅ 꼭 알아야 할 것:
핵심 포인트 요약
전처리 목적: 정확도 높이기 위해 노이즈 제거
주요 전처리 기법:
- 결측치 처리: 평균, 중앙값, 예측 대체 등
- 이상치 제거: Boxplot, 3σ rule, ML 기법
- 정규화/표준화: 스케일 맞추기 (MinMaxScaler, StandardScaler)
- 불균형 데이터 처리: SMOTE, 언더샘플링
- 범주형 인코딩: One-hot, Label Encoding
- 피처 엔지니어링: 파생변수 만들기, 변수 선택
✅ 꼭 알아야 할 것:
핵심 포인트 요약
회귀는 숫자 예측 (ex. 주가, 온도)
선형 회귀: X와 Y가 일직선 관계일 때
다항 회귀: X², X³ 같이 곡선 형태 모델링 가능
평가 지표:
- MSE: 제곱 오차 평균 (큰 오차에 민감)
- MAE: 절대값 오차 평균
- RMSE: MSE에 루트 씌운 것
- R²: 설명력, 1에 가까울수록 좋음
규제 기법:
- 릿지 (Ridge): 계수 줄임 (L2)
- 라쏘 (Lasso): 계수를 0으로도 (L1 → 변수 선택 효과 있음)
✅ 꼭 알아야 할 것:
MSE: 큰 오차에 벌 주고 싶을 때
MAE : 직관적인 평균 오차 보고 싶을 때
RMSE: MSE 성격 + 해석 쉬운 단위로 보고 싶을 때
R²: 전체 설명력을 %로 보고 싶을 때
핵심 포인트 요약
분류는 범주 예측 (ex. 스팸/정상, 합격/불합격)
대표 모델:
- 로지스틱 회귀: 선형 회귀 + 시그모이드 함수
- SVM: 경계선을 가장 잘 찾는 알고리즘
- KNN, 나이브 베이즈, 딥러닝 등도 사용
평가 지표:
- Confusion Matrix: TP, TN, FP, FN
Type I = FP, Type II = FN
Confusion Matrix와 에러 타입은 같은 개념을 다른 시각으로 표현한 것!
✅ 꼭 알아야 할 것:
로지스틱 회귀 vs 선형 회귀 차이
선형 회귀는 "숫자 예측",
로지스틱 회귀는 "확률을 예측해서 분류"하는 회귀
SVM의 최적 경계선 개념
SVM: "클래스를 가장 잘 나누는 선"을 찾는 분류 알고리즘
📝 SVM은 단순히 "나누는 선"을 찾는 게 아니라
👉 두 클래스와 가장 가까운 거리(마진)가 최대한 넓은 선을 찾
Precision(정밀도) vs Recall(재현율)
- 구분: Precision -> 스팸 분류, Recall -> 질병 진단
- Precision: 예측한 양성 중 실제로 양성인 것의 비율
Precision = TP / (TP + FP)- Recall: 실제 양성 중 예측한 양성의 비율
Recall = TP / (TP + FN)✔️ Precision은 "내가 양성이라고 말한 것 중 진짜 양성이 얼마나 되냐?" → 정확하게 골라냈냐?
예) 10개 스팸이라 했는데, 7개만 진짜 스팸 → Precision = 70%
✔️ Recall은 "실제 양성 중에서 내가 몇 개나 맞췄냐?" → 놓친 건 없냐?
예) 실제 스팸이 20개였는데, 7개만 맞췄다면 → Recall = 35%
ROC 곡선은 TPR과 FPR 변화를 보여주는 그래프
TPR: 진짜를 놓치지 않고 잘 맞췄는가? (민감도, 재현율)
FPR: 아닌 걸 잘못 긁어온 건 얼마나 되나? (거짓 경보)
AUC는 ROC 곡선의 면적 → 1에 가까울수록 좋음
-이 면적이 클수록 모델 성능이 좋다는 뜻!
- AUC = 1: 완벽한 분류기
- AUC = 0.5: 랜덤한 분류기
- AUC < 0.5: 성능이 오히려 반대 방향

✏️ 용어정리...
⚠️ 다중공선성이 생기면 문제점:
- 회귀계수(β)가 불안정해짐 → 해석 어려움
- 계수가 크게 튀거나 부호가 반대일 수도 있음
- 예측 성능 자체는 괜찮지만, 해석력↓, 신뢰도↓
✅ 해결 방법:
- 상관관계 높은 변수 제거
- 릿지 회귀(Ridge Regression) 사용 → 다중공선성 완화에 효과적