DM 과제: 전체 데이터셋 관계 트리

no-glass-otacku·2025년 4월 16일
0

X (원본 설명변수) y (원본 타깃: SalePrice)
│ │
├──→ X1 ├──→ y1
│ └─ 결측치 있는 열 제거 └─ 이상치(y 기준) 제거된 행만 유지
│ └─ y1과 인덱스 일치

├──→ X2 (VIF ≥ 10 변수 제거: 다중공선성 ↓)
│ └─ X1의 열 일부만 선택 (중복 제거)

├──→ X3 └──→ log_y
│ └─ X2에서 log_y 기준 이상치 제거 └─ log_y = log(SalePrice + 1)

│ └──→ log_y2
│ └─ X2와 인덱스 일치

│ └──→ log_y3
│ └─ log_y2에서 이상치 제거

X3 <───────────────> log_y3 ← 🔥 최종 회귀 학습 데이터셋

profile
Move forward

0개의 댓글