5. 목적에 적합한 데이터인가?
- 상황에 따라, 분석 목적에 따라 양질의 데이터는 변화함. 따라서 근본적이면서 좋은 방법은 상황에 맞는 데이터를 선택하는 것
데이터에 원하는 정보가 담겨 있는가?
1) DIKW 피라미드 이론
- 데이터 (Data), 정보(Information), 지식(Knowledge), 지혜(Wisdom)
- 데이터가 정보로, 정보는 지식으로, 지식은 지혜로 바뀌어 활용성을 띄게 된다는 의미
2) 데이터 vs 분석가
- 분석가의 수준이나 상황에 따라 같은 데이터라도 양질의 데이터인지 여부가 달라질 수 있음
- 숙련된 데이터 분석가는 작은 정보도 놓치지 않고 인사이트 도출
분석 방법에 부합하는 데이터인가?
1) 머신러닝을 위한 빅데이터
- 머신러닝 알고리즘은 과거 데이터를 토대로 학습을 실행하고 미래 시점을 대상으로 예측을 진행함
- 머신러닝을 실행하고자 한다면 1차적으로 데이터 양 측면과 관련하여 학습할 수 있는 데이터가 충분히 있어야함
- 데이터의 양보다 중요한 것은, 데이터에
종속 변수가 존재
해야한다는 것
- 종속 변수: 관심 대상이 되는 데이터, 예측하고자하는 정보
2) 인사이트 도출을 위한 빅데이터
- 인사이트 도출을 위한 전통적인 활용 방법은 빅데이터임
- 인사이트를 활용하고 쉽게 설명하기 위해서는 지수(index) 개념이 활용되는 경우가 많음
- ex) 주식 전체의 움직임을 알아보기 위해 코스피 지수 활용
- 원천 데이터가 아닌 가공된 데이터가 인사이트 도출 시에는 유리함
분석 목적이 명확하지 않으면 데이터 품질을 논할 수 없다
- 분석 목적 설정은 양질의 데이터 판별을 위한 이정표 역할임
https://yozm.wishket.com/magazine/detail/1123/