양질의 데이터를 판별하는 방법 - 2

Jimi Choi·2023년 9월 3일

0

데이터

목록 보기

2/5

2. 믿을 수 있는 데이터인가?

데이터 수가 뒷받침된다고 해서 모든 데이터를 활용할 수 있는 것은 아니다!
- 분석 결과를 누구나 인정할 수 있도록 데이터 자체에 대한 신뢰성이 뒷받침되어야함

❗ 데이터 신뢰성이란? → 데이터가 얼마나 실제 정보를 똑바로 담고 있는가

확실한 값이 아닌 추정 값을 데이터로 적재하거나, 틀린 정보가 담겨있는 경우가 있을 수 있음

신뢰성 있는 데이터인가?

1) 데이터 오류

데이터가 사실이 아닌 잘못된 정보를 적재하고 있는 경우
데이터 오류가 얼마나 존재하는지에 대한 정보
데이터 분석가 입장에서는 분석 초기에 하나하나의 데이터를 꼼꼼히 보고, 각 데이터가 어떻게 수집되어 온 것인지에 대한 수집 방법 파악을 반드시 선행

2) 결측 데이터

결측 데이터란 데이터 수집 혹은 적재 과정에서 누락된 데이터를 의미
파악은 쉽더라도 대처 어려움
- 해당 데이터 삭제하는 대처법
- 특정값이나 평균 값, 중앙값 등
빅데이터를 활용해 분석을 수행한다면 애초에 결측 데이터가 없는 혹은 최소로 존재하는 데이터를 선택하는 것이 높은 신뢰성을 가질 수 있음

데이터 가공 정도

데이터 원천 매우 다양
- 단순히 이용하지않고 결합하거나 가공하여 새로운 데이터 만들기도함
모든 데이터는 원천데이터와 가공데이터로 분류 가능
양질의 데이터 판별을 위해 데이터의 신뢰성을 보고자 한다면 데이터 가공 정도라는 것이 중요하게 작용

1) 원천 데이터 (데이터의 신뢰성)

데이터 수집 후 아무런 가공도 하지 않은 데이터
사람의 손을 최초로 탄 상태이기 때문에 데이터 오류가 적은 편
데이터 오류를 판별할 수 있는 방법 중 하나는 원천 데이터 여부를 살펴보는 것
초기에 하나하나 데이터를 꼼꼼히 살펴보고, 각 데이터가 어떻게 수집되어온 것인지에 대해 수집 방법을 반드시 선행 파악

2) 가공 데이터 (데이터의 활용성)

최소한의 가공을 거친 데이터도 원천 데이터는 아니지만 편의상 원천 데이터라고 부름
데이터 분석가들은 이러한 데이터를 이용하여 원하는 지수를 개발하거나 필요한 데이터만을 추출하는 등 심화된 데이터 가공 진행
분석가가 데이터에 조작을 많이 가하고 수정을 하면 할수록 데이터의 신뢰성은 떨어지기 쉬움
분석 목적에 따라 특정 지수를 개발하거나 머신러닝을 통해 특정 값을 예측하기도 함. → 이 과정에서 만들어낸 데이터는 결국 추정 값이며 예측 값이다.

데이터의 믿음이 선행되어야 분석이 가능함

허용할 수 있는 데이터 오류 정도를 명확히 설정하고 그에 따라 얼마나 가공된 데이터를 선택할지, 어떤 내용을 담고 있는 데이터를 선택할지 결정해야함
오류가 적고 가공 정도가 적은 데이터가 무조건 적으로 양질의 데이터를 의미하지는 않음

https://yozm.wishket.com/magazine/detail/1074/

이전 포스트

양질의 데이터를 판별하는 방법 - 1

다음 포스트

양질의 데이터를 판별하는 방법 - 3

0개의 댓글

관련 채용 정보