1970년대에 미국의 수학자 존 튜키가 개발한 EDA 기술이다.
데이터에서 일반적인 패턴을 식별하는 분석 접근 방식이며
여러 데이터 세트를 보고, 다양한 부분을 확인하고, 데이터에서 무슨 일이 일어나고 있는지 파악하려고 노력한다.
여기에는 통계와 시각화를 사용하여 데이터를 이해하고 요약하는 것이 포함되며 이로인해 새로운 연관관계 및 인과 관계가 포함되는 필요한 후보 원인에 대한 통찰력을 제공할 수 있다.
일반적인 프로세스로
- 데이터 살펴보기,
행과 열의 수, 각 열에 포함된 정보 유형등 데이터의 정보를 수집한다.- 데이터 전처리,
데이터의 분석 및 예측 모델링을 위해 사전 처리가 필수적이다.- 요약하기,
분위수를 계산하고 왜도를 확인하면 데이터 분포에 대한 통찰력을 얻을 수 있다.- 데이터 시각화
이를 위한 시각화 방식으로
히스토그램
상자 그림
누적 분포 함수(CDF)
QQ 플롯산점도가 있다.- 질문하기:
특정 데이터에서 다른 유의미한 도출이 있는지
데이터에서 의문점이 있지는 않은지 질문한다.- 답변찾기:
이러한 질문에 더 깊은 분석의 필요성이 있는지 파악하기 위해
추가분석 및 회귀 또는 선형 휘귀 모델을 이용 할 수 있다.
참고자료
https://en.wikipedia.org/wiki/Exploratory_data_analysis
위키피디아
https://www.epa.gov/caddis/exploratory-data-analysis
환경보호청(EPA)
https://www.analyticsvidhya.com/blog/2021/08/exploratory-data-analysis-and-visualization-techniques-in-data-science/
analyticsvidhya