탐색적 데이터 분석은 데이터의 구조와 특성을 시각적, 수치적 방법으로 살펴보면서 데이터의 전반적인 모습을 파악하는 과정이다. (어떤 정보가 있는지, 어떤 구조인지, 주요 패턴은 무엇인지, 변수들 간의 관계는 어떠한지, 이상치는 없는지 등등)
후속 분석에 필요한 방향성을 설정하고 숨겨진 인사이트나 패턴을 발견하는 데 중요한 역할을 한다.
데이터 분석의 초기 단계에서 수행된다. 수집 직후 구체적인 목표나 가설을 세우기 전에 데이터의 특성과 구조를 파악하는 데 사용된다.
EDA는 여러번 반복될 수 있다. 분석 과정에서 새로운 가설이나 질문이 생기거나, 데이터 일부를 수정하거나 전처리할 필요가 생기면 EDA를 통해 다시 살표보는 것이 좋다.
데이터의 구조 및 특성 이해 : 기본구조, 변수 유형, 데이터 분포 및 통계적 특성 파악
데이터의 문제점 파악 : 결측치, 이상치, 중복된 데이터 등의 문제점 식별 가능
가설 설정 및 검증 : 초기 가설과 일치하는지 또는 패턴이나 관계가 존재하는지 확인 가능
분석 방향성 결정 : 어떤 변수를 중점적으로 분석할 것인지, 어떤 기법이나 모델을 사용할 것인지의 방향성 결정 가능
데이터 시각화의 중요성 : 시각화를 통해 직관적인 데이터 이해를 도움
효과적인 커뮤니케이션 : 데이터의 주요 특성이나 발견된 인사이트를 전달하는 데 효과적
각 기법은 데이터의 특성, 분석 목적, 데이터의 크기 등을 고려하여 선택한다.
히스토그램 : 연속 변수의 분포를 확인하기 위한 그래프. 데이터의 분포, 중심 등을 확인
박스 플롯 : 연속 변수의 분포와 이상치를 시각적으로 파악하기 좋음
산점도 : 두 변수 간의 관계를 파악하기 위한 그래프, 상관 관계 및 이상치 파악에 유용
막대 그래프와 원형 그래프 : 범주형 변수의 빈도나 비율을 시각화할 때 사용
정보에 감사드립니다.