회의를 거의 새벽 1시까지 했다...
그래도 오늘이 팀프로젝트 진행하면서 가장 유의미한 활동들을 한 것 같아서 뿌듯하다.
이번에는 다같이 데이터 분석을 진행했고, 나도 혼자서 전처리를 해보면서 많은 시행착오를 거칠 수 있었다 ㅎ...
혼자 데이터 정리를 하면서 든 의문! 계속 빈도 수를 체킹하는 식으로 하다가 한계점을 발견했다.
예를 들어:
비교하거나 판단 기준으로 사용하기 위해 비율(%) 기반 분석을 하는 것의 중요성을 깨달았다.
eda를 잘했다고 칭찬도 받았는데... ㅋㅋㅋㅋㅋ그냥 이것저것 해본건데 얻어걸린듯 싶지만 기분은 좋았다는..
데이터를 분석하기 전에 시각적 자료나 통계값 등을 만들어서 자료를 직관적으로 바라보는 시간을 갖는 과정
EDA가 중요한 이유
1.데이터의 문제를 발견할 수 있다
EDA를 하게 되면, 데이터 수집 및 전처리 과정에서 미처 발견하지 못했던 문제를 발견할 수 있습니다.
2.생각하지 못했던 패턴을 발견할 수 있다
실제 데이터를 수집해 펼쳐놓고 보면, 데이터 수집 전에 생각해보지 못했던 데이터 간의 패턴을 발견할 수 있습니다.
3.후속 작업이 수월해진다
본격적으로 데이터 분석에 돌입할 때 사용할 데이터 분석 도구를 선정하는 데 도움이 됩니다. 또한 추가 자료 수집 여부를 결정하는 속도도 빨라집니다.
다음은 데이터 전문가가 아니어도 간단하게 할 수 있는 EDA 5단계라고 한다...
1단계 : 데이터의 전체 그림 보기
EDA의 첫 번째 단계는 불러온 데이터를 시각적으로 펼쳐보는 것입니다. 마치 탐사를 하기 전에 지도를 펼쳐놓고 전체 지형을 파악하듯, 데이터도 한눈에 볼 수 있게 펼쳐봐야 합니다.
2단계 : 기초 통계 확인
기본적으로 떠올릴 수 있는 통계값들을 확인해봅니다. 평균(mean), 중앙값(median), 최대값/최소값(max/min), 분산/표준편차 등을 확인해볼 수 있습니다.이를 통해 대략적인 통계 분포를 확인하고, 데이터가 한쪽으로 치우쳐 있거나 튀는 값이 있지는 않은지 등을 확인합니다.
3단계 : 시각화 해보기
숫자로만 이루어진 표가 아니라, 그래프 등의 시각화 차트로 데이터를 펼쳐보는 방법입니다.데이터 분포를 펼쳐볼 수 있는 히스토그램, 범주형 데이터를 비교해보는 막대 그래프, 시간에 따른 변화를 볼 수 있는 선 그래프 등을 만들어봅니다.
4단계 : 이상치, 결측치 찾아보기
데이터를 탐색하다 보면 ‘어라, 왜 이렇게 값이 튈까?’ 하는 의문이 생기는 지점들이 눈에 보입니다. 이런 경우를 이상치(outlier)라고 합니다. 또한 데이터 값이 아예 누락된 결측치(missing value)도 발견할 수 있습니다. 예를 들어 조금이라도 숫자가 기록되어야 할 부분인데 아예 ‘0’으로 데이터 수집된 경우가 있거나, 반대로 과도하게 큰 숫자가 입력되어 있으면, 이는 이상치 또는 결측치일 가능성이 있으므로, EDA 단계에서 확인해봐야 합니다.
5단계 : 패턴, 관계 찾아보기
시각화 자료에서 데이터 간의 패턴, 관계를 찾아보는 단계입니다. 예를 들어 광고비를 많이 쓸수록 매출이 증가하는 패턴이 보인다면, 하나의 가설로 상정해둔 다음 후속 데이터 분석 작업에서 조금 더 면밀하게 가설을 검증해볼 수 있습니다.
거의 다 와가는 듯 했으나, 팀원 각자가 이해한 가설의 개념이 달랐다는 가장 큰 문제 발견...나는 후자를 하고 있었던 듯...
결국 프로젝트 진행방법을 다시 복기 했다.
light, Light → light)끝이 보이는 듯 하다..! 후..하...