Data Wrangling
데이터 랭글링(Data Wrangling, Data Munging)은 데이터 탐색, 변환, 검증, 그리고 분석 가능하도록 데이터를 신뢰성 있고 의미있게 만드는 작업
변환
- 데이터 구조화
- 데이터는 다양한 데이터 소스로부터 수집됨
- 데이터 통합
- Unions - 행을 기준으로 데이터를 합침
- Joins - 열을 기준으로 데이터를 합침
- 데이터 정규화
- 사용하지 않는 데이터를 삭제
- 중복과 불일치를 감소
- 데이터 반정규화
- 여러 개의 테이블을 하나의 테이블로 만들어, 쿼리 성능을 높임
- 데이터 클리닝
- 신뢰할 수 있고 정확한 분석을 위해 데이터 불규칙성을 수정
검사
- 이슈와 에러를 탐색
- 규칙과 규제에 맞게 데이터 검증 수행
- 소스 데이터를 검사하기 위해 데이터 프로파일링 수행
- 데이터 프로파일링은 데이터의 구조, 내용, 관계를 확인할 수 있게 도와줌
- 통계적 방법을 이용해 데이터 시각화
클리닝
- 사용 사례 및 문제 유형에 따라 클리닝 방법이 달라짐
- 누락값 처리
- 누락값을 포함하고 있는 데이터를 필터링
- 원래 누락된 값인지를 확인
- 통계치에 기반하여 누락된 값을 처리할 수 있음
- 중복값 처리
- 데이터 분석에 무관한 값 처리
- 데이터 타입 변환
- syntax error
- 이상치 처리
Data Wrangling 처리 툴