2. 믿을 수 있는 데이터인가?
- 데이터 수가 뒷받침된다고 해서 모든 데이터를 활용할 수 있는 것은 아니다!
- 분석 결과를 누구나 인정할 수 있도록 데이터 자체에 대한 신뢰성이 뒷받침되어야함
❗ 데이터 신뢰성이란?
→ 데이터가 얼마나 실제 정보를 똑바로 담고 있는가
- 확실한 값이 아닌 추정 값을 데이터로 적재하거나, 틀린 정보가 담겨있는 경우가 있을 수 있음
신뢰성 있는 데이터인가?
1) 데이터 오류
- 데이터가 사실이 아닌 잘못된 정보를 적재하고 있는 경우
- 데이터 오류가 얼마나 존재하는지에 대한 정보
- 데이터 분석가 입장에서는 분석 초기에 하나하나의 데이터를 꼼꼼히 보고, 각 데이터가 어떻게 수집되어 온 것인지에 대한 수집 방법 파악을 반드시 선행
2) 결측 데이터
- 결측 데이터란 데이터 수집 혹은 적재 과정에서 누락된 데이터를 의미
- 파악은 쉽더라도 대처 어려움
- 해당 데이터 삭제하는 대처법
- 특정값이나 평균 값, 중앙값 등
- 빅데이터를 활용해 분석을 수행한다면 애초에 결측 데이터가 없는 혹은 최소로 존재하는 데이터를 선택하는 것이 높은 신뢰성을 가질 수 있음
데이터 가공 정도
- 데이터 원천 매우 다양
- 단순히 이용하지않고 결합하거나 가공하여 새로운 데이터 만들기도함
- 모든 데이터는 원천데이터와 가공데이터로 분류 가능
- 양질의 데이터 판별을 위해 데이터의 신뢰성을 보고자 한다면 데이터 가공 정도라는 것이 중요하게 작용
1) 원천 데이터 (데이터의 신뢰성)
- 데이터 수집 후 아무런 가공도 하지 않은 데이터
- 사람의 손을 최초로 탄 상태이기 때문에 데이터 오류가 적은 편
- 데이터 오류를 판별할 수 있는 방법 중 하나는 원천 데이터 여부를 살펴보는 것
- 초기에 하나하나 데이터를 꼼꼼히 살펴보고, 각 데이터가 어떻게 수집되어온 것인지에 대해 수집 방법을 반드시 선행 파악
2) 가공 데이터 (데이터의 활용성)
- 최소한의 가공을 거친 데이터도 원천 데이터는 아니지만 편의상 원천 데이터라고 부름
- 데이터 분석가들은 이러한 데이터를 이용하여 원하는 지수를 개발하거나 필요한 데이터만을 추출하는 등 심화된 데이터 가공 진행
- 분석가가 데이터에 조작을 많이 가하고 수정을 하면 할수록 데이터의 신뢰성은 떨어지기 쉬움
- 분석 목적에 따라 특정 지수를 개발하거나
머신러닝
을 통해 특정 값을 예측하기도 함. → 이 과정에서 만들어낸 데이터는 결국 추정 값이며 예측 값이다.
데이터의 믿음이 선행되어야 분석이 가능함
- 허용할 수 있는 데이터 오류 정도를 명확히 설정하고 그에 따라 얼마나 가공된 데이터를 선택할지, 어떤 내용을 담고 있는 데이터를 선택할지 결정해야함
- 오류가 적고 가공 정도가 적은 데이터가 무조건 적으로 양질의 데이터를 의미하지는 않음
https://yozm.wishket.com/magazine/detail/1074/