✅ 핵심 내용
EDA 란, 데이터를 다양한 각도에서 관찰하고 이해하는 과정을 의미한다. 그래프와 같은 시각적인 방법, 통계적인 방법 등 여러 방법을 통해 EDA를 진행한다.
EDA는 좋은 데이터 분석과 좋은 머신러닝 모델을 만들기 위해 필수적인 과정이므로, 다양한 데이터를 관찰하면서 더욱 의미 있는 정보를 만들어내기 위해 고민해야한다.
일반적인 EDA 과정은 다음과 같다.
EDA 과정을 통해 속성 간의 패턴, 관계 를 찾고, 프로젝트 초기에 가설을 수립 하고 해당 프로젝트에 적절한 모델 및 기법 을 정하는데 도움을 받을 수 있다.
EDA 과정은 실제로 다양한 데이터를 직접 분석하면 그에 대한 개념을 확고히 잡을 수 있다.
따라서 실제로 Kaggle 에 업로드 되어 있는 Pokemon with stats 데이터셋을 통해 EDA 과정을 연습해보자.
캐글 "Pokemon with stats" 데이터셋에 들어가서Description
부분을 보면 데이터에 관한 여러 정보들이 나와있다.
간단한 정보들을 보면, 11개의 feature을 가지는 것을 알 수 있다.
자세한 EDA 분석 과정과 코드는 GitHub 에 설명했다.
GitHub Link ➡ FD10_EDA