EDA

TaeWoo Lee / Kris·2021년 12월 18일

Code States [AI_09] Section1

목록 보기

1/12

해결하고자 하는 문제를 파악하고 분석할 데이터들을 확인
- 독립 변수와 종속변수를 구분
  - 독립변수는 연구자가 의도적으로 변화시키는 변수
  - 종속변수는 연구자가 독립변수의 변화에 따라 어떻게 변하는지 알고 싶어하는 변수
- 일변량인지 다변량인지 파악
  - 종속변수의 개수가 1개이면 일변량자료이고 종속변수의 개수가 2개 이상이면 다변량 자료이다
- ID, No와 같이 관련이 없는 변수가 없는지 확인
데이터를 전체적으로 살펴보면서 이상치, 결측치가 없는지 확인
- 이상치와 결측치를 발견했다면 원인을 파악하고 이를 어떻게 처리할 것인지 결정
- 데이터의 일부만 보고 파악할 수 없기 때문에 전체적으로 확인
- 평균, 중앙값, 최빈값 등의 통계 지표 확인
  - 이상치에 따라 달라질 수 있음으로 주의
시각화를 통해 데이터의 대략적인 분포를 파악하고 적절한 통계 지표를 결정
데이터의 변수들 간에 어떤 유의미한 상관관계를 가지는지 파악

일변량 시각화
- 히스토그램(Histogram), 막대그래프(Bar Plot) : 데이터 분포를 확인하거나 이상치를 파악할 때 주로 사용하며 연속적인 데이터에 효과적
- Box Plot : 이상치(Outlier)를 파악하거나 데이터의 치우침 정도를 파악할 때 효과적
- QQ-plot : 왜도와 첨도를 파악할때 주로 사용
일변량 비시각화
- 통계요약 : 주로 Numeric 데이터를 분석할 때 사용
다변량 시각화
- 산점도(Scatter Plot) : 두 변수가 양적 변수일 때 종속 변수를 y축에 두고 빈도를 확인
- 범주별 시각화 : 범주에 따라 일변량 시각화를 적용
다변량 비시각화
- 교차 표 : 범주형 데이터에 주로 사용
- 상관분석

일단 저지르자! 그리고 해결하자!