
[주제]
[아티클 요약]
- 양질의 데이터란? 데이터 품질이 높다 → 데이터 활용가치가 높다.
- 양질의 데이터 판별하는 방법
- 데이터의 수가 충분히 많다.
- 데이터 자체의 오류가 적다.
- 관계형 데이터베이스 형식을 잘 지키고 있다.
- 수치형 데이터 형식을 많이 보유하고 있다.
- 활용 목적에 적합하다.
- 충분한 양의 데이터
적은 데이터의 양은 분석의 신뢰도 하락에 직결됨
- 데이터 양을 중요하게 고려해야 하는 경우
- 표본을 통해 모집단을 유추하는 경우
- AI 알고리즘
- 어느정도의 데이터가 충분한 양일까?
- 기본적으로 충분한 데이터에 대한 정확한 기준은 없음
- 통계적 분석: 최소 500개 이상의 데이터
- 머신러닝: 변수에 100 곱한 수보다 많은 데이터
[인사이트]
양질의 데이터를 위한 첫번째 조건인 충분한 데이터의 양과 그 기준에 대해 알게 되었다. 남은 조건도 학습하면 신뢰 할 수 있는 데이터 분석을 하는데 도움이 될 것 같다.
참고) https://yozm.wishket.com/magazine/detail/1567/