EDA와 CDA의 차이점

Moses·2021년 8월 18일

데이터 사이언스

목록 보기
1/2
post-thumbnail

데이터 분석을 위한 방법으로는 크게 두가지가 있다.
확증적 데이터분석(CDA : Confirmatory Data Analysis)와 탐색적 데이터분석(EDA : Exploratory Data Analysis)의 두 종류이다.

우선 데이터를 분석한다는 것은 데이터를 여러 방법으로 뜯어보며 유의미한 패턴을 찾아내고 의사결정에 도움이 되는 통찰, 인사이트를 얻겠다는 것이다.

그렇다면 이 데이터를 어떻게 살펴볼 것인가?
1. 가설을 세운 후에 이를 데이터를 통해 검증해본다. [CDA]
2. 데이터를 우선 살펴보면서 인사이트를 도출해낸다. [EDA]

예를 들어 더운날에는 아이스크림이 잘 팔릴 것이라는 가설을 세운다고 치면 기간을 정해서 날짜별 평균 기온과 아이스크림 판매량을 비교해보는 것으로 이 가설을 검증할 수 있을 것이다. 이것이 첫번째 방법이다.

만약에 이런 가설을 떠올리지 못했지만 이러한 가설을 세우고 싶을 때 이용하는 것이 두번째 방법이다. 만약 내가 가지고 있는 데이터에 아이스크림 판매량과 평균 기온 정보가 들어있다고 해보자. 내가 이 데이터들을 분석하여 둘을 비교해 보았더니 날씨가 더울수록 판매량이 높다는 상관관계를 발견했다면 나는 이것을 바탕으로 둘의 상관관계에 대한 인사이트를 얻고 가설을 세울 수 있다.


                                (여름철인 3분기가 판매량이 가장 높은 것을 볼 수 있다.)


즉, CDA는 내가 이미 가지고 있는 인사이트나 가설을 검증하기 위한 목표를 가지고 데이터를 분석하지만 EDA는 이러한 인사이트를 얻기 위해서 데이터를 선입견 없이 유연하게 탐색해본다는 차이점이 있다.

CDA에서는 이미 어떠한 결과가 나올 것이라는 가설을 기준으로 진행하므로 선입견으로 인해서 해당 가설의 검증 결과에만 집중하여 유의미한 인사이트를 주는 지표들을 놓칠 수 있다.
EDA에서는 반대로 명확한 분석 목표가 없기 때문에 분석 결과를 보고서 아무런 인사이트도 얻지 못한 채 방황할 가능성이 높다.

최근에 머신 러닝등의 데이터 분석을 할때 EDA를 거치는 이유는 데이터를 유연하게 분석하면서 해당 데이터셋에 대한 이해도를 높이고 가치 있는 인사이트를 얻을 수 있기 때문이다. 내가 미처 생각하지 못했던 패턴이나 관계성을 발견하게 된다면 이를 이용해서 가설을 세우고 CDA를 거치면서 인사이트를 검증할 수 있다. 이것이 EDA가 중요한 이유이다. 분석없이 자신이 가지고 있는 상식으로 가설을 세우는 것은 누구나 할 수 있지만 창의적이고 가치있는 인사이트를 도출해내기는 힘들다. 그럴 때 데이터로부터 분석전에는 내가 떠올리지 못했던 인사이트를 얻어서 활용할 수 있다면 분석의 질을 한단계 높일 수 있기 때문에 꼭 필요한 과정이다.

profile
데이터분석 입문가

0개의 댓글