양질의 데이터를 판별하는 방법 - 4

Jimi Choi·2023년 9월 3일
1

데이터

목록 보기
4/5
post-custom-banner

4. 데이터 형식을 파악했는가?

데이터가 순수한 정형데이터인가?

1) 정형데이터와 비정형 데이터

  • 반정형 데이터: 구조 정보를 포함한 내용을 담고 있어 데이터라고 충분히 분류할 수 있는 데이터
  • 정형 데이터: 미리 정해놓은 형식과 구조가 있어 그에 따라 고정된 자리에 저장된 데이터
    • 행과 열의 형태로 담겨 엑셀로 저장할 수 있는 데이터가 정형 데이터
    • 숫자 형식으로 지정된 데이터
      • 정형 데이터 속에서도 “보통이다”, “매우 그렇다” 등 텍스트 형태의 데이터가 저장될 순 있지만, 미리 정해놓은 구조가 있기 때문에 숫자로 변환할 수 있어 수치데이터와 같은 것으로 봐도 무방
  • 비정형 데이터: 정의된 구조가 없는 데이터
    • 텍스트, 이미지, 영상, 오디오 등의 데이터

2) 정형/비정형 데이터 간 활용 방식의 차이

  • 데이터를 분석하고자 하는 목적이 명확해진다면, 정형/비정형 데이터 여부에 따라서도 양질의 데이터 여부를 어느정도 판단할 수 있다는 것을 의미
  • 정형 데이터는 활용 방법이 다양함
    • 평균, 표준편차 등을 계산하여 끝낼 수 있으며, 심화된 통계 기법을 적용할 수도 있음
    • 머신러닝, 딥러닝 기술 정형데이터에 그대로 적용 가능
  • 비정형 데이터는 활용 방식에 한계 있음
    • 통계 불가능, 평균값 표준편찻값 존재하기 어려움
    • 활용 방식이 인공지능 분야에 국한

범주형 데이터의 비율이 얼마나 되는가?

1) 데이터의 척도

  • 빅데이터 중 정형 데이터는 데이터 척도라는 것이 존재함
    • 데이터 척도: 데이터가 정의되고 분류되는 방식
    • 각 데이터들이 열을 기준으로 데이터 척도를 가지고 있음

  • 명목 척도: 남자=1, 여자=2와 같이 데이터를 단순히 숫자로 변환시킨 것
  • 서열 척도: 1등, 2등, 3등 같이 숫자가 단순히 순서만을 의미하는 것
  • 등간 척도: 온도와 같이 각 값이 상대적 크기 비교가 가능한 것
  • 비율 척도: 무게와 같이 절대적 기준이 있는 영점(0)이 존재하는 것

중요한 것은 범주형 데이터로 분류되는 명목척도와 서열척도는 수학 연산에 한계가 있음

2) 범주형 데이터의 비율

  • 양질의 데이터를 판별할 때 범주형 데이터의 비중이 얼마나 되는지 상세하게 살펴보는 것이 유리
  • 데이터의 대부분이 범주형 데이터로만 이루어졌다면 이는 분석 대상에서 제외하는 것이 좋음
  • 모든 데이터가 수치형 데이터로만 구성된 데이터를 이용하고자 하는 것은 욕심일 수 있음
    • 수치형 데이터가 많이 담긴 데이터를 탐색하되, 데이터의 속성 수 자체가 충분히 많아 분석할 재료가 많은지 등 종합적으로 바라보는게 좋음
  • 범주형 데이터의 비율을 절대적 조건으로 데이터 판별에 이용하기 보다는 하나의 참고 사항으로 양질의 데이터 판별에 활용

💡 숫자로 표시된 데이터가 높은 활용도를 보임


https://yozm.wishket.com/magazine/detail/1107/

post-custom-banner

0개의 댓글