
원본 데이터 로드 및 타입 파악
데이터 변환(Transformation)의 필요성 식별 : object(문자형) 타입을 수치형으로 변환해야 함
기계가 이해할 수 있도록 문자 데이터를 숫자로 변환하는 과정
Label Encoding (라벨 인코딩):
대상: transmission, model
방법: 각 범주를 고유한 정수(0, 1, 2...)로 맵핑
결과: 'Manual', 'Automatic' 등의 텍스트가 수치화됨
One-Hot Encoding (원-핫 인코딩):
대상: fuelType
방법: pd.get_dummies를 사용하여 각 연료 타입을 독립된 컬럼(0 또는 1)으로 분리
이유: 연료 타입 간에 순위나 우열이 없으므로 모델의 오해를 방지함
예측 목표인 가격(price) 데이터의 통계적 특성을 조정합니다.
현황 파악: 히스토그램 시각화 결과, 오른쪽으로 긴 꼬리를 가진 비대칭 분포(Right-skewed) 확인
로그 변환(Log Transform): np.log1p 함수를 적용하여 값의 편차를 줄임
결과: 데이터 분포를 정규분포(종 모양)에 가깝게 만들어 모델의 학습 안정성 확보
변환이 완료된 데이터들 사이의 관계를 파악
Correlation Heatmap: 모든 수치형 데이터 간의 상관계수 산출
핵심 변수 식별: price와 강한 상관관계를 보이는 핵심 속성(year, mileage, engineSize 등) 파악
최종 데이터셋 확인
데이터 정제: 결측치 없음 확인 (10,668행 유지)
피처 변환: 3개의 범주형 변수 수치화 완료
최적화: 타겟 변수(price) 로그 변환을 통해 모델 학습 효율 극대화