EDA = Exploratory Data Analysis = 탐색적 데이터 분석
무언가 전문 용어처럼 보여서 어려운 개념이라고 착각하기 쉽지만 그냥 데이터를 다루기 전에 이것이 어떤 데이터인지를 파악하고, 데이터 속의 어떤 변수가 다른 변수와 어떤 상관 관계가 있는지 살펴보는 것이다.
기존의 통계학이 가설을 세우고 그것을 검증하는 방법론에만 치우쳐 데이터의 자체의 특성이 상대적으로 등한시되자 수학자 John Wilder Tukey가 개발한 데이터 분석 과정에 대한 개념이라고 한다.
How to do EDA
- Raw data의 column (row) description을 잘 살피기
- 결측치 처리, 자료형 확인 및 변환, 특정 조건에 맞춰 데이터 필터링 하기
- 데이터의 특성 및 상관관계가 명확히 보이도록 데이터 시각화 하기
데이터의 종류
데이터는 크게 수치형 데이터와 범주형 데이터로 나눌 수 있다.
- 수치형 데이터
- 연속형 (continuous) 데이터 : 정수와 부동소수점으로 이루어진 데이터
- 이산형 (discrete) 데이터 : 정수로만 이루어진 데이터
- 범주형 데이터
- 명목형 (nominal) 데이터 : 카테고리, 타입 등 데이터 분류를 위해 이미 정해진 값이 있는 데이터. 명목형 데이터가 가지는 값을 수준 (level) 이라고 한다.
ex) 명목형 데이터 중에서도 True/False, 0/1 과 같이 이미 정해진 두 값만 있는 데이터를 이진(binary) 데이터라고 한다.
- 순서형 (ordinal) 데이터 : 이미 정해진 값 사이에 순서가 매겨진 데이터
ex) 매우 그렇지 않다(1) - 약간 그렇지 않다(2) - 보통이다(3)- 약간 그렇다(4) - 매우 그렇다(5)
* 수치형 데이터는 히스토그램, boxplot 등으로 시각화하면 도움이 된다.
* 범주형 데이터는 막대 그래프 (절대 빈도), 파이 차트 (상대 빈도) 등으로 시각화하면 도움이 된다.
References
https://jalynne-kim.medium.com/데이터분석-기초-eda의-개념과-데이터분석-잘-하는-법-a3cac2cc5ebc