[내일배움캠프] 44일

노경민·2025년 7월 17일
0

1️⃣ 오늘의 학습 요약

오늘은 Airbnb 뉴욕 숙소 데이터를 기반으로 가격 예측 회귀 모델링 프로젝트를 계획하고, 전체 흐름을 기획서 형태로 정리했다. 주요 흐름은 목표 설정 → 데이터 선정 및 정제 → 모델 분석 → 결과 해석 및 인사이트 도출로 구성된다.


2️⃣ 주요 학습 내용 정리

1. 🎯 목표 및 가설

  • 목표: 뉴욕시 Airbnb 숙소 가격을 예측하고, 가격에 영향을 주는 주요 피처 도출
  • 가설: 숙소 유형, 위치, 숙박 조건 등은 가격에 유의미한 영향을 미친다

2. 📊 데이터 정제

  • 이상치 처리: IQR 기반 이상치 제거
  • 전처리: 불필요한 칼럼 제거, 문자열 제거 및 수치형 변환, 인코딩(Label, One-Hot), MinMax 정규화, 로그 변환
  • 사용 컬럼: 26개

3. 🔍 분석 방법

  • 회귀 모델: 랜덤 포레스트, XGBoost
  • 성능 지표: R², MSE, RMSE, MAE
  • 최종 모델 성능 (XGBoost 튜닝 후): R²=0.6164, MSE=0.1139, RMSE=0.3375, MAE=0.2646
  • 하이퍼파라미터 튜닝 적용

4. 📈 해석 및 시각화

  • ANOVA 검정: property_type에 따라 로그 가격 평균 차이가 유의미함(p=0.0)

  • SHAP Summary Plot로 주요 피처 영향 해석

    • 위치 점수, 숙소 유형, 최소 숙박일, 수용 인원 등이 핵심 변수
  • 가격 전략 및 운영 전략 매트릭스 도출


3️⃣ 개념 정리 (핵심 키워드)

개념설명
IQR 이상치 제거Q1 - 1.5×IQR 이하 / Q3 + 1.5×IQR 이상 값을 제거
Label Encoding순서 없는 범주형 변수를 수치형으로 변환
XGBoost강력한 성능의 부스팅 기반 회귀/분류 모델
SHAP각 피처가 예측값에 얼마나 영향을 주는지를 시각적으로 보여줌
ANOVA그룹 간 평균의 차이가 통계적으로 유의한지 검정
R² (결정계수)예측 모델의 설명력 지표 (0~1)

4️⃣ 느낀 점

이전까지는 모델 정확도 향상에만 집중했다면, 이번 프로젝트는 데이터 전처리 → 시각화 → 해석 → 전략 제안까지 이어지는 분석 전과정을 통합적으로 경험할 수 있어 의미 있었다. 특히 SHAP 해석과 가격 전략 시나리오 도출 과정이 흥미로웠고, 단순한 예측을 넘어 실질적인 비즈니스 인사이트를 연결하는 분석 사고의 중요성을 느꼈다.


5️⃣ 내일의 목표

발표 자료 작성


0개의 댓글