CRISP-DM
CRISP-DM
는 Cross Industry Standard Process for Data Mining
의 약자이다.
출처: https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=limsay77&logNo=220294703246
1. business understanding(비즈니스 이해)
- 비즈니스 문제
- 데이터분석 방향, 목표결정
- 초기 가설 수립
- 데이터의 존재여부 고려하지 말고 초기 가설 도출
- 문제를 파악해가는 과정을 반복하면서 문제를 재정의하고 해결책을 정의함
2. Data understanding(데이터 이해)
- 원본 식별
- 가용 데이터 수집(하나의 데이터 프레임으로)
- 데이터 탐색: EDA & CDA
- EDA(탐색적 데이터 분석) : 분포 파악 / 개별 데이터의 분포와 가설이 맞는지 파악 / NA, 이상치 파악
- CDA(확증적 데이터 분석) : 가설검정과 실험(필요시)을 통해 확인 / 탐색으로 파악하기 애매한 정보는 통계적 분석 도구(가설 검정) 사용
- 전처리 전략 수립
3. Data preparation(데이터 준비)
- 데이터의 형태를 조작하고 변환
ex) 추가변수 도출, 결측치 조치, 가변수화, 스케일링, 데이터분할
- 모델링을 위한 데이터 구조 만들기 (하나의 데이터프레임)
4. modeling(모델링)
- 중요 변수들을 선택하고, 적절한 알고리즘 적용하여 예측 모델 생성
- 중요변수 선정 / 모델 생성 / 학습 / 학습검정(예측, 평가) ,모델 성능 검정
- 모델링(learning, training)
- 데이터로부터 패턴을 찾는 과정
- 오차를 최소화하는 패턴
- 모델(결과물)은 수학식으로 표현됨
- 준비물 : 학습데이터, 알고리즘(패턴을 찾는 방법)
5. evaluation(평가)
- 모델에 대한 데이터분석 목표와 비즈니스 목표달성에 대한 평가
- 모델과 데이터에서 추출한 패턴이 특정 예제에만 해당되는지, 일반화되는지 확인 필요
- 모델에 대한 최종 평가: test set이용
- 비즈니스 기대가치 평가
- 필요 시 다시 1번으로
6. deployment(배포)
- 프로젝트 결과물 최종 확정 : 프로덕션 환경의 파이프라인, 모델 및 배포가 고객 목표를 충족하는지 확인
- 운영시스템에서 품질 유지 기준을 정하고, 모니터링 계획 수립
- 시스템 유효성 검사 : 배포된 모델과 이 고객 요구 사항을 충족하는지 확인
- 프로젝트 이전 : 운영환경으로 배포
- 데이터 수집부터 모델 배포 관리까지 파이프라인 구성
저도 직장인인데 데이터 분석가로 커리어 전환 준비 중이거든요..! 좋은 취준 팁 얻고 갑니다! 다른 사람들은 어떻게 공부하는지 궁금할 때 가끔 블로그 찾아보고 있는데 도움이 많이 됩니다~! 혹시 저처럼 직장 병행하느라 시간 부족하신 분들은 저랑 같이 공부해보시면 어떨까요..ㅎㅎ 저도 많이 부족하긴 하지만, 현직자분들이 직접 저녁까지 1:1로 코칭해주시거든요..!
고민 중이신 분들 있다면 한 번 들어와서 보셔요..! → https://zrr.kr/6gjj