데이터 전처리 부분을 필사하고 간단하게 데이터 전처리에 대해 정리하였습니다.
데이터 전처리
데이터 전처리의 대표적인 방법
결측값 처리
- 누락된 데이터가 있는 경우, 이를 제거하거나 평균, 중앙값, 최빈값 등으로 채운다.
이상치 처리
- 데이터의 범위를 벗어난 극단적인 값을 식별하고, 제거하거나 다른 값으로 대체한다.
데이터 인코딩
- 문자열이나 범주형 데이터를 모델이 이해할 수 있는 숫자형 데이터로 변환한다.
데이터 스케일링
- 데이터의 값 범위를 일정한 수준으로 맞춤으로써 특정 변수의 값이 너무 커서 모델 학습에 영향 미치는 것을 방지한다.
종류
- 표준화: 데이터를 평균 0, 표준편차 1로 만드는 것
- 정규화: 데이터를 0과 1 사이의 값으로 변환하는 것
데이터 불균형 해결
- 클래스의 분포가 매우 불균형할 때, 소수 클래스의 데이터를 증가시키거나, 다수 클래스의 데이터를 줄여 모델이 편향되지 않도록 한다.
필사 링크
https://www.kaggle.com/code/jaeeunjeong0/clone-eda-to-prediction-dietanic
역시 너무 어려움......