
- 요약:
- 공통 내용
- 양질의 데이터란? 데이터 품질이 높다 → 데이터 활용가치가 높다.
- 양질의 데이터 판별하는 방법
- 데이터의 수가 충분히 많다.
- 데이터 자체의 오류가 적다.
- 관계형 데이터베이스 형식을 잘 지키고 있다.
- 수치형 데이터 형식을 많이 보유하고 있다.
- 활용 목적에 적합하다.
- 정형 데이터 VS 비정형 데이터
- 정형 데이터: 숫자 데이터 → 엑셀로 저장 가능
- 비정형 데이터: 숫자가 아닌 데이터 → 엑셀로 저장 불가능 (이미지, 영상, 오디오 등)
- 정형 데이터는 활용 범위가 넓고, 비정형은 적다. 단, 인공지능에서는 활용도가 높음.
- 범주형 데이터 VS 수치형 데이터
- 데이터 척도: 데이터가 정의되고 분류되는 방식
- 범주형 데이터
- 명목 척도: 데이터를 단순 숫자로 변환 (남자1, 여자2)
- 서열 척도: 숫자가 단순히 순서만을 의미 (1,2,3등)
- 수치형 데이터
- 등간 척도: 온도처럼 값의 상대적인 크기 비교가 가능
- 비율 척도: 절대적인 0점 기준이 있는 경우 (몸무게)
- 범주형데이터는 숫자 연산에 한계가 있어, 데이터 분석에도 한계가 있음
- 범주형 데이터의 비율이 높다면, 양질의 데이터에서 멀어짐
- 범주형 데이터가 많다면, 그 빈도를 살펴보는 것만으로도 의미가 있음
- 결론: 숫자로 표시된 데이터가 활용도가 높다. 비정형 보다는 정형이, 범주형보다는 수치형 데이터가 활용도가 높다.
인사이트: 정형, 비정형까지만 알고 있었는데 데이터 척도에 따라서 정형 데이터가 범주형, 숫자형으로 또 나뉘어 질 수 있다는걸 처음 알아서 신기했다. 숫자로 된 데이터라고 해서 무조건 양질의 데이터가 아님을 알게 되었다.
참고) https://yozm.wishket.com/magazine/detail/1107/