4. 데이터 형식을 파악했는가?
데이터가 순수한 정형데이터인가?
1) 정형데이터와 비정형 데이터
- 반정형 데이터: 구조 정보를 포함한 내용을 담고 있어 데이터라고 충분히 분류할 수 있는 데이터
- 정형 데이터: 미리 정해놓은 형식과 구조가 있어 그에 따라 고정된 자리에 저장된 데이터
- 행과 열의 형태로 담겨 엑셀로 저장할 수 있는 데이터가 정형 데이터
- 숫자 형식으로 지정된 데이터
- 정형 데이터 속에서도 “보통이다”, “매우 그렇다” 등 텍스트 형태의 데이터가 저장될 순 있지만, 미리 정해놓은 구조가 있기 때문에 숫자로 변환할 수 있어 수치데이터와 같은 것으로 봐도 무방
- 비정형 데이터: 정의된 구조가 없는 데이터
2) 정형/비정형 데이터 간 활용 방식의 차이
- 데이터를 분석하고자 하는 목적이 명확해진다면, 정형/비정형 데이터 여부에 따라서도 양질의 데이터 여부를 어느정도 판단할 수 있다는 것을 의미
- 정형 데이터는 활용 방법이 다양함
- 평균, 표준편차 등을 계산하여 끝낼 수 있으며, 심화된 통계 기법을 적용할 수도 있음
- 머신러닝, 딥러닝 기술 정형데이터에 그대로 적용 가능
- 비정형 데이터는 활용 방식에 한계 있음
- 통계 불가능, 평균값 표준편찻값 존재하기 어려움
- 활용 방식이 인공지능 분야에 국한
범주형 데이터의 비율이 얼마나 되는가?
1) 데이터의 척도
- 빅데이터 중 정형 데이터는 데이터 척도라는 것이 존재함
- 데이터 척도: 데이터가 정의되고 분류되는 방식
- 각 데이터들이 열을 기준으로 데이터 척도를 가지고 있음
- 명목 척도: 남자=1, 여자=2와 같이 데이터를 단순히 숫자로 변환시킨 것
- 서열 척도: 1등, 2등, 3등 같이 숫자가 단순히 순서만을 의미하는 것
- 등간 척도: 온도와 같이 각 값이 상대적 크기 비교가 가능한 것
- 비율 척도: 무게와 같이 절대적 기준이 있는 영점(0)이 존재하는 것
중요한 것은 범주형 데이터로 분류되는 명목척도와 서열척도는 수학 연산에 한계가 있음
2) 범주형 데이터의 비율
- 양질의 데이터를 판별할 때 범주형 데이터의 비중이 얼마나 되는지 상세하게 살펴보는 것이 유리
- 데이터의 대부분이 범주형 데이터로만 이루어졌다면 이는 분석 대상에서 제외하는 것이 좋음
- 모든 데이터가 수치형 데이터로만 구성된 데이터를 이용하고자 하는 것은 욕심일 수 있음
- 수치형 데이터가 많이 담긴 데이터를 탐색하되, 데이터의 속성 수 자체가 충분히 많아 분석할 재료가 많은지 등 종합적으로 바라보는게 좋음
- 범주형 데이터의 비율을 절대적 조건으로 데이터 판별에 이용하기 보다는 하나의 참고 사항으로 양질의 데이터 판별에 활용
💡 숫자로 표시된 데이터가 높은 활용도를 보임
https://yozm.wishket.com/magazine/detail/1107/