양질의 데이터를 판별하는 방법 - 1

Jimi Choi·2023년 9월 3일
0

데이터

목록 보기
1/5
post-custom-banner

1. 데이터 양은 충분한가?

  • 적은 데이터 수는 곧바로 분석 결과의 신뢰성 하락으로 연결
    • 많은 데이터를 통해 충분히 검증한 결과와 그렇지 않은 결과의 차이
    • 예외는 있다. 적은 데이터로도 문제 해결을 충분히 해낼 수 있기도 함 (양질의 데이터)

1) 데이터 양을 중요하게 고려해야하는 경우

  • 표본이 모집단을 대표하지 못할 때
    • 표본: 어떤 사건이나 현상을 파악하기 위해 수집한 데이터
    • 모집단: 분석 대상이 되는 집합 전체
  • AI 알고리즘을 적용해야하는 경우
    • 딥러닝 알고리즘 핵심 원칙 → 데이터의 양이 많으면 훌륭한 AI가 완성됨
    • 일정 수준을 넘기지 못하면 AI 알고리즘을 적용하는데 무리가 있음
  • 분석가의 목표를 이루기 위해 머신러닝, 딥러닝 기술이 반드시 필요하다면 데이터의 양을 우선적으로 확인해야함

2) 어느 정도의 데이터가 충분한 양일까?

  • 몇 개 이상의 데이터라면 충분하다는 절대적인 기준이 없음
    • 상황에 따라, 데이터를 분석하는 목적과 방법에 따라 그 정도가 달라짐
    • 데이터 분석은 통계적인 분석과 머신러닝(기계학습) 분야로 크게 나눌 수 있음
      • 통계적 분석
        • 최소한 500개 이상의 데이터
        • 대부분의 분석 알고리즘 통계의 유의미성이라는 것을 산출
          • 통계의 유의미성: 분석 결과를 통계적으로 신뢰할 수 있는가에 대한 지표
          • 데이터 수가 300~500개 이상이 될 때부터 안정적인 흐름으로 산출
      • 머신러닝
        • 변수의 수에 100을 곱한 것보다 많은 양의 데이터 필요 (이 정도면 데이터 수 자체에는 의구심을 가지지 않음)
        • 많으면 많을수록 좋다

데이터의 양은 분석 결과의 신뢰도로 연결


https://yozm.wishket.com/magazine/detail/1070/

post-custom-banner

0개의 댓글