
데이터 확인 및 병합
데이터 통합: concat을 통한 분산 데이터 병합 및 인덱스 초기화
속성 변환: object 형태의 지수 데이터를 numeric으로 타입 변경
데이터 정제 (Cleaning)
이상치 제거: 비논리적 경력/나이 데이터 식별 및 삭제
결측치 처리: 분석 신뢰도를 위한 누락 행(Age 등) 제거
변환 및 인코딩 (Transformation)
로그 변환: np.log1p를 이용한 연봉 데이터의 정규화
원-핫 인코딩: 범주형 변수의 수치화 및 다중공선성 방지(drop_first)
직무 그룹화
고유값이 많은 직무명을 핵심 카테고리로 단순화
스케일링 및 PCA
스케일링: Standard, Robust, Min-Max를 활용한 변수 범위 조정
차원 축소: PCA를 통한 변수 압축 및 정보 손실률(variance_ratio) 검증