양질의 데이터를 판별하는 방법 - 2

Jimi Choi·2023년 9월 3일
0

데이터

목록 보기
2/5
post-custom-banner

2. 믿을 수 있는 데이터인가?

  • 데이터 수가 뒷받침된다고 해서 모든 데이터를 활용할 수 있는 것은 아니다!
    • 분석 결과를 누구나 인정할 수 있도록 데이터 자체에 대한 신뢰성이 뒷받침되어야함
❗ 데이터 신뢰성이란? → 데이터가 얼마나 실제 정보를 똑바로 담고 있는가
  • 확실한 값이 아닌 추정 값을 데이터로 적재하거나, 틀린 정보가 담겨있는 경우가 있을 수 있음

신뢰성 있는 데이터인가?

1) 데이터 오류

  • 데이터가 사실이 아닌 잘못된 정보를 적재하고 있는 경우
  • 데이터 오류가 얼마나 존재하는지에 대한 정보
  • 데이터 분석가 입장에서는 분석 초기에 하나하나의 데이터를 꼼꼼히 보고, 각 데이터가 어떻게 수집되어 온 것인지에 대한 수집 방법 파악을 반드시 선행

2) 결측 데이터

  • 결측 데이터란 데이터 수집 혹은 적재 과정에서 누락된 데이터를 의미
  • 파악은 쉽더라도 대처 어려움
    • 해당 데이터 삭제하는 대처법
    • 특정값이나 평균 값, 중앙값 등
  • 빅데이터를 활용해 분석을 수행한다면 애초에 결측 데이터가 없는 혹은 최소로 존재하는 데이터를 선택하는 것이 높은 신뢰성을 가질 수 있음

데이터 가공 정도

  • 데이터 원천 매우 다양
    • 단순히 이용하지않고 결합하거나 가공하여 새로운 데이터 만들기도함
  • 모든 데이터는 원천데이터와 가공데이터로 분류 가능
  • 양질의 데이터 판별을 위해 데이터의 신뢰성을 보고자 한다면 데이터 가공 정도라는 것이 중요하게 작용

1) 원천 데이터 (데이터의 신뢰성)

  • 데이터 수집 후 아무런 가공도 하지 않은 데이터
  • 사람의 손을 최초로 탄 상태이기 때문에 데이터 오류가 적은 편
  • 데이터 오류를 판별할 수 있는 방법 중 하나는 원천 데이터 여부를 살펴보는 것
  • 초기에 하나하나 데이터를 꼼꼼히 살펴보고, 각 데이터가 어떻게 수집되어온 것인지에 대해 수집 방법을 반드시 선행 파악

2) 가공 데이터 (데이터의 활용성)

  • 최소한의 가공을 거친 데이터도 원천 데이터는 아니지만 편의상 원천 데이터라고 부름
  • 데이터 분석가들은 이러한 데이터를 이용하여 원하는 지수를 개발하거나 필요한 데이터만을 추출하는 등 심화된 데이터 가공 진행
  • 분석가가 데이터에 조작을 많이 가하고 수정을 하면 할수록 데이터의 신뢰성은 떨어지기 쉬움
  • 분석 목적에 따라 특정 지수를 개발하거나 머신러닝을 통해 특정 값을 예측하기도 함. → 이 과정에서 만들어낸 데이터는 결국 추정 값이며 예측 값이다.

데이터의 믿음이 선행되어야 분석이 가능함

  • 허용할 수 있는 데이터 오류 정도를 명확히 설정하고 그에 따라 얼마나 가공된 데이터를 선택할지, 어떤 내용을 담고 있는 데이터를 선택할지 결정해야함
  • 오류가 적고 가공 정도가 적은 데이터가 무조건 적으로 양질의 데이터를 의미하지는 않음

https://yozm.wishket.com/magazine/detail/1074/

post-custom-banner

0개의 댓글