240501 TIL #387 AI Tech #2 탐색적 데이터 분석(EDA)

김춘복·2024년 5월 1일
0

TIL : Today I Learned

목록 보기
387/571

Today I Learned

오늘부터 부스트캠프 AI Tech 수강 정리!


EDA

Exploratory Data Analysis, 탐색적 데이터 분석
데이터를 탐색하고 가설을 세우고 증명하는 과정

  • 데이터의 특징과 내재된 구조적 관계를 알기위해 시각화통계적 방법을 이용해 다양한 각도에서 데이터를 탐색, 가설 수립, 검증하는 단계

  • 이를 통해 데이터의 특징과 문제를 직관적으로 이해하고 문제의 정답에 가까워진다.

  • 정형, 비정형 모든 데이터는 분석에 앞서 이러한 EDA 과정을 거쳐야한다.

  • 문제를 해결하는 과정에서 데이터에 대한 이해는 필수적이다. 문제와 데이터에 대한 이해를 통해 적절한 전처리와 방법론들을 선택해야한다.

  • 즉, 데이터를 이해하고 무제를 해결하는 과정에서 데이터를 통해 고민하는 모든 과정이 EDA다. 데이터적 통찰력과 상상력을 얻을 수 있다.

EDA 과정

  1. 데이터에 대한 가설 or 의문
  2. 시각화나 통계량, 모델링을 통한 가설 검증
  3. 위의 결론을 통해 다시 새로운 가설을 세우고 문제를 해결
  • 하지만 데이터마다 도메인이 다르고(금융, 제조, 보건 등), 데이터가 같아도 해결하고자 하는 문제가 다르기 때문에 데이터의 종류와 모델에 따라 EDA가 그때그때 다르다.

EDA의 시작 단계

  • 개별 변수의 분포(Variation)

  • 변수 간의 분포와 관계(Covariation)

  • 위의 분포와 관계를 알아보기위해 히스토그램, count plot, correlation hitmap 등을 사용한다.

  • 문제의 이해와 가설을 세운 다음 변수간의 분포와 관계를 연속형(series), 범주형(aggregation)으로 보면서 가설에 대한 insight를 찾는다.


본 포스트의 학습 내용은 부스트클래스 <AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정> 강의 내용을 바탕으로 작성되었습니다.

profile
Backend Dev / Data Engineer

0개의 댓글