양질의 데이터를 판별하는 5가지 방법: ④ 데이터 형식

NayeonKim·2025년 6월 5일

  • 요약:
    • 공통 내용
      • 양질의 데이터란? 데이터 품질이 높다 → 데이터 활용가치가 높다.
      • 양질의 데이터 판별하는 방법
      1. 데이터의 수가 충분히 많다.
      2. 데이터 자체의 오류가 적다.
      3. 관계형 데이터베이스 형식을 잘 지키고 있다.
      4. 수치형 데이터 형식을 많이 보유하고 있다.
      5. 활용 목적에 적합하다.
    • 정형 데이터 VS 비정형 데이터
      • 정형 데이터: 숫자 데이터 → 엑셀로 저장 가능
      • 비정형 데이터: 숫자가 아닌 데이터 → 엑셀로 저장 불가능 (이미지, 영상, 오디오 등)
      • 정형 데이터는 활용 범위가 넓고, 비정형은 적다. 단, 인공지능에서는 활용도가 높음.
    • 범주형 데이터 VS 수치형 데이터
      • 데이터 척도: 데이터가 정의되고 분류되는 방식
      • 범주형 데이터
        • 명목 척도: 데이터를 단순 숫자로 변환 (남자1, 여자2)
        • 서열 척도: 숫자가 단순히 순서만을 의미 (1,2,3등)
      • 수치형 데이터
        • 등간 척도: 온도처럼 값의 상대적인 크기 비교가 가능
        • 비율 척도: 절대적인 0점 기준이 있는 경우 (몸무게)
      • 범주형데이터는 숫자 연산에 한계가 있어, 데이터 분석에도 한계가 있음
      • 범주형 데이터의 비율이 높다면, 양질의 데이터에서 멀어짐
      • 범주형 데이터가 많다면, 그 빈도를 살펴보는 것만으로도 의미가 있음
    • 결론: 숫자로 표시된 데이터가 활용도가 높다. 비정형 보다는 정형이, 범주형보다는 수치형 데이터가 활용도가 높다.

인사이트: 정형, 비정형까지만 알고 있었는데 데이터 척도에 따라서 정형 데이터가 범주형, 숫자형으로 또 나뉘어 질 수 있다는걸 처음 알아서 신기했다. 숫자로 된 데이터라고 해서 무조건 양질의 데이터가 아님을 알게 되었다.

참고) https://yozm.wishket.com/magazine/detail/1107/

profile
그로스마케터 성장일지 🐕

0개의 댓글