양질의 데이터를 판별하는 방법 - 5

Jimi Choi·2023년 9월 3일
1

데이터

목록 보기
5/5
post-custom-banner

5. 목적에 적합한 데이터인가?

  • 상황에 따라, 분석 목적에 따라 양질의 데이터는 변화함. 따라서 근본적이면서 좋은 방법은 상황에 맞는 데이터를 선택하는 것

데이터에 원하는 정보가 담겨 있는가?

1) DIKW 피라미드 이론

  • 데이터 (Data), 정보(Information), 지식(Knowledge), 지혜(Wisdom)
  • 데이터가 정보로, 정보는 지식으로, 지식은 지혜로 바뀌어 활용성을 띄게 된다는 의미

2) 데이터 vs 분석가

  • 분석가의 수준이나 상황에 따라 같은 데이터라도 양질의 데이터인지 여부가 달라질 수 있음
    • 숙련된 데이터 분석가는 작은 정보도 놓치지 않고 인사이트 도출

분석 방법에 부합하는 데이터인가?

1) 머신러닝을 위한 빅데이터

  • 머신러닝 알고리즘은 과거 데이터를 토대로 학습을 실행하고 미래 시점을 대상으로 예측을 진행함
    • 머신러닝을 실행하고자 한다면 1차적으로 데이터 양 측면과 관련하여 학습할 수 있는 데이터가 충분히 있어야함
  • 데이터의 양보다 중요한 것은, 데이터에 종속 변수가 존재해야한다는 것
    • 종속 변수: 관심 대상이 되는 데이터, 예측하고자하는 정보

2) 인사이트 도출을 위한 빅데이터

  • 인사이트 도출을 위한 전통적인 활용 방법은 빅데이터임
  • 인사이트를 활용하고 쉽게 설명하기 위해서는 지수(index) 개념이 활용되는 경우가 많음
    • ex) 주식 전체의 움직임을 알아보기 위해 코스피 지수 활용
  • 원천 데이터가 아닌 가공된 데이터가 인사이트 도출 시에는 유리함

분석 목적이 명확하지 않으면 데이터 품질을 논할 수 없다

  • 분석 목적 설정은 양질의 데이터 판별을 위한 이정표 역할임

https://yozm.wishket.com/magazine/detail/1123/

post-custom-banner

0개의 댓글