AIFFEL FD #09 탐색적 데이터 분석 EDA

이재준·2021년 7월 16일
0

AIFFEL Fundamental

목록 보기
10/25
post-thumbnail

✅ 핵심 내용

  • dataset feature 이해 및 분석
  • 그래프 시각화, pivot table 등을 활용하여 다양한 방법으로 EDA 진행
  • 전처리가 필요한 데이터 전처리
  • 적절한 모델을 선택해 학습시키며 베이스라인과 비교

🔍 EDA (Exploratory Data Analysis)

EDA 란, 데이터를 다양한 각도에서 관찰하고 이해하는 과정을 의미한다. 그래프와 같은 시각적인 방법, 통계적인 방법 등 여러 방법을 통해 EDA를 진행한다.

EDA는 좋은 데이터 분석과 좋은 머신러닝 모델을 만들기 위해 필수적인 과정이므로, 다양한 데이터를 관찰하면서 더욱 의미 있는 정보를 만들어내기 위해 고민해야한다.

일반적인 EDA 과정은 다음과 같다.

    1. 문제 정의 단계에서 세웠던 질문과 가설을 바탕으로 분석 계획
    1. 분석의 목적과 속성에 대한 정보(이름, 설명 등) 확인
    1. 전체적인 데이터 관찰 (결측치, 이상치 등 확인)
    1. 데이터의 개별 속성값을 관찰
    1. 속성 간의 관계에 초점을 맞춰 개별 속성 관찰에서 찾아내지 못한 여러 패턴을 찾음

EDA 과정을 통해 속성 간의 패턴, 관계 를 찾고, 프로젝트 초기에 가설을 수립 하고 해당 프로젝트에 적절한 모델 및 기법 을 정하는데 도움을 받을 수 있다.

EDA 과정은 실제로 다양한 데이터를 직접 분석하면 그에 대한 개념을 확고히 잡을 수 있다.

따라서 실제로 Kaggle 에 업로드 되어 있는 Pokemon with stats 데이터셋을 통해 EDA 과정을 연습해보자.


캐글 "Pokemon with stats" 데이터셋에 들어가서Description 부분을 보면 데이터에 관한 여러 정보들이 나와있다.

간단한 정보들을 보면, 11개의 feature을 가지는 것을 알 수 있다.

자세한 EDA 분석 과정과 코드는 GitHub 에 설명했다.

GitHub Link ➡ FD10_EDA

profile
🏫 𝑲𝒚𝒖𝒏𝒈 𝑯𝒆𝒆 𝑼𝒏𝒊𝒗. / 👨‍🎓 𝑪𝒐𝒍𝒍𝒆𝒈𝒆 𝒐𝒇 𝑬𝒏𝒈𝒊𝒏𝒆𝒆𝒓𝒊𝒏𝒈

0개의 댓글