오늘은 Airbnb 뉴욕 숙소 데이터를 기반으로 가격 예측 회귀 모델링 프로젝트를 계획하고, 전체 흐름을 기획서 형태로 정리했다. 주요 흐름은 목표 설정 → 데이터 선정 및 정제 → 모델 분석 → 결과 해석 및 인사이트 도출로 구성된다.
ANOVA 검정: property_type에 따라 로그 가격 평균 차이가 유의미함(p=0.0)
SHAP Summary Plot로 주요 피처 영향 해석
가격 전략 및 운영 전략 매트릭스 도출
개념 | 설명 |
---|---|
IQR 이상치 제거 | Q1 - 1.5×IQR 이하 / Q3 + 1.5×IQR 이상 값을 제거 |
Label Encoding | 순서 없는 범주형 변수를 수치형으로 변환 |
XGBoost | 강력한 성능의 부스팅 기반 회귀/분류 모델 |
SHAP | 각 피처가 예측값에 얼마나 영향을 주는지를 시각적으로 보여줌 |
ANOVA | 그룹 간 평균의 차이가 통계적으로 유의한지 검정 |
R² (결정계수) | 예측 모델의 설명력 지표 (0~1) |
이전까지는 모델 정확도 향상에만 집중했다면, 이번 프로젝트는 데이터 전처리 → 시각화 → 해석 → 전략 제안까지 이어지는 분석 전과정을 통합적으로 경험할 수 있어 의미 있었다. 특히 SHAP 해석과 가격 전략 시나리오 도출 과정이 흥미로웠고, 단순한 예측을 넘어 실질적인 비즈니스 인사이트를 연결하는 분석 사고의 중요성을 느꼈다.
발표 자료 작성