1. 데이터 양은 충분한가?
- 적은 데이터 수는 곧바로 분석 결과의 신뢰성 하락으로 연결
- 많은 데이터를 통해 충분히 검증한 결과와 그렇지 않은 결과의 차이
- 예외는 있다. 적은 데이터로도 문제 해결을 충분히 해낼 수 있기도 함 (양질의 데이터)
1) 데이터 양을 중요하게 고려해야하는 경우
- 표본이 모집단을 대표하지 못할 때
- 표본: 어떤 사건이나 현상을 파악하기 위해 수집한 데이터
- 모집단: 분석 대상이 되는 집합 전체
- AI 알고리즘을 적용해야하는 경우
- 딥러닝 알고리즘 핵심 원칙 → 데이터의 양이 많으면 훌륭한 AI가 완성됨
- 일정 수준을 넘기지 못하면 AI 알고리즘을 적용하는데 무리가 있음
- 분석가의 목표를 이루기 위해 머신러닝, 딥러닝 기술이 반드시 필요하다면 데이터의 양을 우선적으로 확인해야함
2) 어느 정도의 데이터가 충분한 양일까?
- 몇 개 이상의 데이터라면 충분하다는 절대적인 기준이 없음
- 상황에 따라, 데이터를 분석하는 목적과 방법에 따라 그 정도가 달라짐
- 데이터 분석은 통계적인 분석과 머신러닝(기계학습) 분야로 크게 나눌 수 있음
- 통계적 분석
- 최소한 500개 이상의 데이터
- 대부분의 분석 알고리즘
통계의 유의미성
이라는 것을 산출
- 통계의 유의미성: 분석 결과를 통계적으로 신뢰할 수 있는가에 대한 지표
- 데이터 수가 300~500개 이상이 될 때부터 안정적인 흐름으로 산출
- 머신러닝
- 변수의 수에 100을 곱한 것보다 많은 양의 데이터 필요 (이 정도면 데이터 수 자체에는 의구심을 가지지 않음)
- 많으면 많을수록 좋다
데이터의 양은 분석 결과의 신뢰도로 연결
https://yozm.wishket.com/magazine/detail/1070/