오늘부터 부스트캠프 AI Tech 수강 정리!
Exploratory Data Analysis, 탐색적 데이터 분석
데이터를 탐색하고 가설을 세우고 증명하는 과정
데이터의 특징과 내재된 구조적 관계를 알기위해 시각화
나 통계적 방법
을 이용해 다양한 각도에서 데이터를 탐색, 가설 수립, 검증하는 단계
이를 통해 데이터의 특징과 문제를 직관적으로 이해하고 문제의 정답에 가까워진다.
정형, 비정형 모든 데이터는 분석에 앞서 이러한 EDA 과정을 거쳐야한다.
문제를 해결하는 과정에서 데이터에 대한 이해는 필수적이다. 문제와 데이터에 대한 이해를 통해 적절한 전처리와 방법론들을 선택해야한다.
즉, 데이터를 이해하고 무제를 해결하는 과정에서 데이터를 통해 고민하는 모든 과정이 EDA다. 데이터적 통찰력과 상상력을 얻을 수 있다.
- 데이터에 대한 가설 or 의문
- 시각화나 통계량, 모델링을 통한 가설 검증
- 위의 결론을 통해 다시 새로운 가설을 세우고 문제를 해결
개별 변수의 분포(Variation)
변수 간의 분포와 관계(Covariation)
위의 분포와 관계를 알아보기위해 히스토그램, count plot, correlation hitmap 등을 사용한다.
문제의 이해와 가설을 세운 다음 변수간의 분포와 관계를 연속형(series), 범주형(aggregation)으로 보면서 가설에 대한 insight를 찾는다.
본 포스트의 학습 내용은 부스트클래스 <AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정> 강의 내용을 바탕으로 작성되었습니다.