Node 03. Data Cleaning - 호텔 예약

Yooil·2025년 5월 12일

Data&AI-Uni.

목록 보기
35/77
post-thumbnail

https://github.com/dev-yooillog/MAIN_QUEST/tree/main/Mini_Project2

  1. 데이터 확인 및 문제 정의
    원본 데이터 로드 및 결측치 현황 파악
    분석에 불필요한 속성 및 이상치 식별

  2. 결측치(Missing Value) 처리
    Children: 수치형 데이터의 결측치를 0으로 대체
    Country: 국가 정보 부재 데이터를 'Unknown'으로 범주화
    Agent/Company: 예약 주체 미기입 데이터를 '0'으로 처리 및 데이터 타입 변환

  3. 이상치(Outlier) 및 오류 데이터 정제
    성인, 아동, 영유아 합계가 0인 '비논리적 예약' 제거
    투숙객이 없는 허수 데이터를 제외하여 분석 신뢰도 확보

  4. 중복 데이터(Duplicates) 제거
    완전히 동일한 예약 내역 31,976건 식별 및 삭제
    결과: 119,390행 → 87,011행으로 데이터 최적화

  5. 파생 변수 생성 (Feature Engineering)
    total_guests: 전체 인원수 통합 변수 생성
    total_stay_days: 총 숙박 기간 계산
    is_family: 가족 단위 예약 여부 구분

  6. 데이터 시각화 및 검증 (EDA)
    호텔 타입별 예약 및 취소 비중 시각화
    월별 트렌드 분석을 통한 정제 데이터 무결성 확인

0개의 댓글