데이터 분석 프로세스
1. 문제 정의
궁극적으로 해결하고자 하는 것이 무엇이며, 원인이 무엇이며, 상황을 판단하는 지표나 기준이 무엇이냐
- 풀고자 하는 문제를 명확하게 정의
- 큰 문제를 작은 문제로 정의
- 작은 문제들에 대해 가설을 세우고
- 데이터 분석을 통해 가설을 검증하고 피드백 반영
2. 데이터 수집
- 검증해보고자 하는 가설을 해결해주는 데이터를 수집
- 데이터가 존재하나
- 어떤 종류의 데이터가 필요한가
- 얻고자 하는 데이터의 지표가 명확한가
3. 데이터 전처리
- 데이터 추출, 필터링, 그룹핑, 조인
- 데이터 분석을 위한 기본적인 테이블을 만드는 단계
- 이상치 제거, 분포 변환, 카테고리화, 표준화 등 데이터 분석을 위한 자료 만들기
4. 데이터 분석
- EDA(탐색적 데이터 분석)
- 그룹별 평균, 합 등 기술적 통계치 확인
- 분포 확인
- 변수 간 관계 및 영향력 파악
- 데이터 시각화
- Modeling & Learning
- Classification (categorical label)
- Regression (numerical label)
- Clustering (비지도 학습)
5. 리포팅 / 피드백
- 상대방이 이해할 수 있도록 작성
- 적절한 시각화 활용
- 항목 간 비교시 원 그래프는 지양하고 막대 그래프 위주로 한다
- x,y 축 및 단위 주의
- 시계열은 라인이나 실선으로 표현
- 분포는 히스토그램이나 박스 플롯
- 변수 간 관계는 산점도
저도 직장인인데 데이터 분석가로 커리어 전환 준비 중이거든요..! 좋은 취준 팁 얻고 갑니다! 다른 사람들은 어떻게 공부하는지 궁금할 때 가끔 블로그 찾아보고 있는데 도움이 많이 됩니다~! 혹시 저처럼 직장 병행하느라 시간 부족하신 분들은 저랑 같이 공부해보시면 어떨까요..ㅎㅎ 저도 많이 부족하긴 하지만, 현직자분들이 직접 저녁까지 1:1로 코칭해주시거든요..!
고민 중이신 분들 있다면 한 번 들어와서 보셔요..!
https://zrr.kr/CH2L