EDA는 무엇인가? EDA는 본격적으로 분석에 들어가기에 앞서 데이터에 대해 뜯어보는 과정 -> 시각화, 통계치 활용할 수 있음 EDA가 왜 필요하지? EDA없이 바로 분석에 들어가는 것은 재료에 대해 살펴보지 않고 요리를 하는 것 우리가 분석을 하는 이유는 데이터
1) 시각화 방법 : 가장 대표적인 시각화 라이브러리는 matplotlib, seaborn 등2) 데이터 유형에 따른 통계치수치형 데이터는 평균, 표준편차, 최댓값, 최솟값 등범주형 데이터는 데이터의 빈도, 비율 등3) 데이터 통계치데이터의 대푯값을 구하는 통계치(ce
1) Data wrangling데이터 Merging, 그루핑, concatenating 등을 통해서 다른 데이터셋과 함께 분석할 수 있게 하는 것(+data aggregation, 데이터 시각화, 예측 통계모델 학습)2) Data cleaning중복되거나 레이블이 잘못
EDA: 데이터를 이해하는 과정Data Wrangling: raw data를 분석에 용이하도록 정제, 변형하는 과정어떤 목적인지, 데이터가 어떤 상태인지에 따라 무엇을 먼저할지를 생각해볼 수 있음→ EDA를 통해 시각화했을 때, 데이터 내 어떤 부분을 제거해야 하는지가