Data Wrangling

Nayeon Bae·2023년 6월 26일

Data

목록 보기

4/4

EDA: 데이터를 이해하는 과정
→ EDA로는 데이터 내 어떤 부분을 제거해야 하는지가 더 명확하게 보일수도 있고, 먼저 깔끔하게 정리하는 것이 오히려 insight를 발견하기 쉽게 만들수도 있음
Data Wrangling: raw data를 분석에 용이하도록 정제, 변형하는 과정
Data Wrangling을 통해 어떤 목적인지, 데이터가 어떤 상태인지에 따라 무엇을 먼저할지를 생각해볼 수 있음
데이터를 가져오고, 탐색하고, 정제하는 과정을 거침 (Gather - Assess - Clean)
Data가 좋은 quality와 tidiness를 가지도록 함
품질의 문제 → 데이터의 contents issue

1) 결측치 (missing values)

제거

결측치가 있는 행 또는 열을 삭제 해당 행 또는 열에서 결측치의 비율이 많아 대체하기 어려운 경우 충분한 데이터를 가지고 있어 해당 행, 열을 삭제하더라도 이후 분석, 모델링에 큰 영향을 미치지 않는 경우 .dropna()
대체 : 결측치를 삭제하지 않고, 특정값을 넣어줌.
- 가지고 있는 데이터를 통해 결측치 값을 유추할 수 있는 경우
- 중요한 데이터라서 삭제할 수 없는 경우
- fillna()
- 평균, 중앙값 - numerical
- 최빈값 - categorical
- 앞 or 뒤 데이터 padding
- 예측을 통한 대체 (linear regression …)
- 모델링 시 imputation 방법 → sklearn KNNImputer, SimpleImputer
+) 결측값 보간 (interpolation) : 시계열(time series) 분석 시에 유용하게 사용 → 데이터 간 상관성, 연속성이 있는 경우, 선형으로 비례하도록 보간

2) 중복값 (duplicates)

3) 부정확한 값 (inaccurate values)

4) 이상치 (outliers)

구조의 문제 → 데이터의 structural issue

tidy data

데이터에 윤리를 내장하는 데이터 사이언티스트를 꿈꾸다