1. 정돈된 데이터(Tidy data)의 개요
대부분 실행환경에서의 많은 데이터 셋은 세부적 분석을 작업을 하기 전에 상당한 양의 데이터 재구성을 할 필요가 있다. 경우에 따라서는 전체 프로젝트 자체가 오로지 다른 사람들이 가공하기 쉬운 형태로 데이터를 재구성하는 일일 때도 있다.
데이터 재구성의 목적은 정돈된 데이터-tidy data-를 만드는 것이다.
tidy data란 용어는 해들리 위컴이 분석이 용이한 형태로 구성되 있는 데이터를 설명하기 위해 만든 용어이다.
1.1 정돈된 데이터란?
- 각 변수(데이터 속성)는 열을 형성한다.
- 각 관측값(하나의 데이터)은 행을 형성한다.
- 각 관측 단위별(데이터 Entity)로 별도의 테이블(표)이 구성된다. => 단일 관측
1.1.1 변수
- 변수 이름 : 성별, 인종, 연봉, 직위 같은 레이블
- 변수의 값
- 관측 때마다 달라지는 값
- 성 : 남성 / 여성
- 인종 : 황인 / 흑인 / 백인
- 연봉 : 3천만원, 4천만원, ...
1.1.2 관측값과 관측단위
- 단일 관측
- 하나의 데이터셋에서는 하나의 관측치만 들어가야 한다.
- 단일 관측 단위(하나의 데이터, 도메인)에 대한 모든 변숫값의 모음
- 관측(관찰) 대상의 단위 => 하나의 데이터 => 변수들로 구성됨.
- 종업원, 손님, 물품, ..
- 종업원 정보(근무시간 같은)와 고객정보(구매 액수)를 같은 테이블에 병합하는 것은 단일 관측이라 할 수 없다.
1.2 정돈되지 않은 데이터의 가장 흔한 형태
- 열 이름이 변수 이름이 아니라 값인 경우.
- 열 이름에 복수 개의 변수가 저장된 경우.
- 변수가 행과 열에 모두 저장된 경우
- 같은 테이블에 복수 형식의 관측단위가 저장된 경우
- 하나의 테이블에 여러 데이터(관측단위)가 병합된 것
- 단일 고나측 단위가 복수 테이블에 저장된 경우
- 하나의 데이터의 변수들이 여러 테이블에 나눠 저장된 경우
1.3 '데이터를 정돈한다'의 의미
단순히 데이터셋의 값을 바꾸거나 결측치를 채운다는 것만을 말하지 않는다. 데이터를 정돈하는 것은 데이터의 형태나 구조를 정돈 원칙에 맞게 변형시키는 것이다.
데이터가 올바른 형태로 주어진다면 분석이 쉬워진다.