
https://github.com/dev-yooillog/MAIN_QUEST/tree/main/Mini_Project
데이터 불러오기 및 초기 탐색
데이터 로드 - trip.csv 파일 불러오기
구조 파악 - info()와 describe()를 활용한 데이터 타입 및 기초 통계 확인
결측치(Missing Value) 및 중복 데이터 처리
결측치 유무 및 비율 살펴보기 - 컬럼별 데이터 유실률 계산
결측치 제거 - fare_amount 등 핵심 컬럼의 누락 데이터 삭제
중복 데이터 처리 - 시스템 오류로 중복 기록된 데이터 행 제거
데이터 타입 변환 및 시간 정보 세분화
날짜형 변환 - 문자열(object) 데이터를 datetime 객체로 정밀 변환
주행 시간(Driving Time) 계산 - 픽업/하차 시간 차이를 분(minute) 단위로 산출
시간대/요일 추출 - pickup_hour, day_of_week 피처 생성을 통한 시계열 데이터 분해
변수 간 상관관계 파악 (Visual Analysis)
주행 시간 - 주행 거리 상관관계 분석 - 이동 시간과 거리의 정비례 관계 확인
주행 거리 - 주행 요금 상관관계 분석 - 거리에 따른 요금 체계 및 할증 검증
주행 시간 - 주행 요금 상관관계 분석 - 교통 정체가 요금에 미치는 영향 파악
상관 행렬(Correlation Matrix) - Heatmap을 활용한 전체 수치형 변수 간 영향도 시각화
데이터 무결성 검증 (Logical Integrity Check)
평균 주행 속도(Avg Speed) 산출 - 거리 / 시간 공식을 활용한 물리적 타당성 검토
논리적 오류 필터링
시속 100km 초과(도심 불가능) 및 시속 0km 데이터 제거
하차 시간이 승차 시간보다 빠른 '시간 역행' 데이터 삭제
이상치(Outlier) 탐지 및 처리
이상치 탐지 - 산점도(Scatter Plot)와 박스플롯(Box Plot)을 활용한 비정상 데이터 식별
필터링 조건 설정
승객 수(0명 또는 비현실적인 다수) 제거
주행 거리 0 이하 및 비정상적 장거리 주행 제거
요금 0원 이하 및 과도한 고액 요금($500 이상) 제거
데이터 표준화 (Data Standardization)
결제 수단 명칭 통일 - payment_method 내 'Credit Card', 'Debit Card' 등을 'Card'로 통합
최종 저장 및 품질 평가
클리닝 데이터 저장 - cleaned_trip.csv 파일 생성
전후 비교 분석 - 원본 대비 데이터 손실률(Data Loss Rate) 산출 및 데이터 분포 변화 확인