Node 02. Data Cleaning - 뉴욕시 택시요금

Yooil·2025년 5월 3일

Data&AI-Uni.

목록 보기
34/77
post-thumbnail

https://github.com/dev-yooillog/MAIN_QUEST/tree/main/Mini_Project

  1. 데이터 불러오기 및 초기 탐색
    데이터 로드 - trip.csv 파일 불러오기
    구조 파악 - info()와 describe()를 활용한 데이터 타입 및 기초 통계 확인

  2. 결측치(Missing Value) 및 중복 데이터 처리
    결측치 유무 및 비율 살펴보기 - 컬럼별 데이터 유실률 계산
    결측치 제거 - fare_amount 등 핵심 컬럼의 누락 데이터 삭제
    중복 데이터 처리 - 시스템 오류로 중복 기록된 데이터 행 제거

  3. 데이터 타입 변환 및 시간 정보 세분화
    날짜형 변환 - 문자열(object) 데이터를 datetime 객체로 정밀 변환
    주행 시간(Driving Time) 계산 - 픽업/하차 시간 차이를 분(minute) 단위로 산출
    시간대/요일 추출 - pickup_hour, day_of_week 피처 생성을 통한 시계열 데이터 분해

  4. 변수 간 상관관계 파악 (Visual Analysis)
    주행 시간 - 주행 거리 상관관계 분석 - 이동 시간과 거리의 정비례 관계 확인
    주행 거리 - 주행 요금 상관관계 분석 - 거리에 따른 요금 체계 및 할증 검증
    주행 시간 - 주행 요금 상관관계 분석 - 교통 정체가 요금에 미치는 영향 파악
    상관 행렬(Correlation Matrix) - Heatmap을 활용한 전체 수치형 변수 간 영향도 시각화

  5. 데이터 무결성 검증 (Logical Integrity Check)
    평균 주행 속도(Avg Speed) 산출 - 거리 / 시간 공식을 활용한 물리적 타당성 검토
    논리적 오류 필터링
    시속 100km 초과(도심 불가능) 및 시속 0km 데이터 제거
    하차 시간이 승차 시간보다 빠른 '시간 역행' 데이터 삭제

  6. 이상치(Outlier) 탐지 및 처리
    이상치 탐지 - 산점도(Scatter Plot)와 박스플롯(Box Plot)을 활용한 비정상 데이터 식별
    필터링 조건 설정
    승객 수(0명 또는 비현실적인 다수) 제거
    주행 거리 0 이하 및 비정상적 장거리 주행 제거
    요금 0원 이하 및 과도한 고액 요금($500 이상) 제거

  7. 데이터 표준화 (Data Standardization)
    결제 수단 명칭 통일 - payment_method 내 'Credit Card', 'Debit Card' 등을 'Card'로 통합

  8. 최종 저장 및 품질 평가
    클리닝 데이터 저장 - cleaned_trip.csv 파일 생성
    전후 비교 분석 - 원본 대비 데이터 손실률(Data Loss Rate) 산출 및 데이터 분포 변화 확인

0개의 댓글