1) Data wrangling
2) Data cleaning
중복되거나 레이블이 잘못 달려 있는 데이터, 결측치, 아웃라이어, 비표준값(non-standard values), 데이터 품질을 이용하면 결과적으로 아웃컴과 알고리즘의 신뢰성 하락(Data impurities)
데이터 클리닝이란? 이러한 데이터나 데이터베이스를 감지, 교정, 정확하게 포맷팅하는 등의 프로세스
데이터 분석의 70%가 데이터 클리닝과 데이터 변환에 할애됨
3) 데이터 문제
문제 확인 방법
1) 시각적 탐색 - text editor, google sheet 와 같이 프로그램을 활용해, 데이터셋을 관찰
2) 프로그래매틱 탐색 - info() 등과 같은 코드를 사용하여, 전체적인 데이터를 확인
*판다스로 탐색 시 : pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', None) - 모든 열/행을 보여줘라
아래의 3가지 요소를 갖추지 않을 경우 발생
1) 각 변수는 하나의 열을 구성
2) 각 관측치는 하나의 행을 구성
3) 각 유형의 관측 단위가 표를 구성
데이터의 구조적 문제가 해결되지 않으면 차후에 분석, 시각화, 모델링을 진행할 때 속도가 느려질 수 있으니 주의해야 함