데이터 분석

jeongwoo·2022년 3월 22일
1

데이터 분석

목록 보기
1/4
post-thumbnail

CRISP-DM

CRISP-DMCross Industry Standard Process for Data Mining의 약자이다.

출처: https://m.blog.naver.com/PostView.naver?isHttpsRedirect=true&blogId=limsay77&logNo=220294703246

1. business understanding(비즈니스 이해)

  • 비즈니스 문제
  • 데이터분석 방향, 목표결정
  • 초기 가설 수립
    • 데이터의 존재여부 고려하지 말고 초기 가설 도출
  • 문제를 파악해가는 과정을 반복하면서 문제를 재정의하고 해결책을 정의함

2. Data understanding(데이터 이해)

  • 원본 식별
  • 가용 데이터 수집(하나의 데이터 프레임으로)
  • 데이터 탐색: EDA & CDA
    • EDA(탐색적 데이터 분석) : 분포 파악 / 개별 데이터의 분포와 가설이 맞는지 파악 / NA, 이상치 파악
    • CDA(확증적 데이터 분석) : 가설검정과 실험(필요시)을 통해 확인 / 탐색으로 파악하기 애매한 정보는 통계적 분석 도구(가설 검정) 사용
  • 전처리 전략 수립

3. Data preparation(데이터 준비)

  • 데이터의 형태를 조작하고 변환
    ex) 추가변수 도출, 결측치 조치, 가변수화, 스케일링, 데이터분할
  • 모델링을 위한 데이터 구조 만들기 (하나의 데이터프레임)

4. modeling(모델링)

  • 중요 변수들을 선택하고, 적절한 알고리즘 적용하여 예측 모델 생성
  • 중요변수 선정 / 모델 생성 / 학습 / 학습검정(예측, 평가) ,모델 성능 검정
  • 모델링(learning, training)
    • 데이터로부터 패턴을 찾는 과정
    • 오차를 최소화하는 패턴
    • 모델(결과물)은 수학식으로 표현됨
    • 준비물 : 학습데이터, 알고리즘(패턴을 찾는 방법)

5. evaluation(평가)

  • 모델에 대한 데이터분석 목표와 비즈니스 목표달성에 대한 평가
  • 모델과 데이터에서 추출한 패턴이 특정 예제에만 해당되는지, 일반화되는지 확인 필요
  • 모델에 대한 최종 평가: test set이용
  • 비즈니스 기대가치 평가

- 필요 시 다시 1번으로

6. deployment(배포)

  • 프로젝트 결과물 최종 확정 : 프로덕션 환경의 파이프라인, 모델 및 배포가 고객 목표를 충족하는지 확인
  • 운영시스템에서 품질 유지 기준을 정하고, 모니터링 계획 수립
  • 시스템 유효성 검사 : 배포된 모델과 이 고객 요구 사항을 충족하는지 확인
  • 프로젝트 이전 : 운영환경으로 배포
  • 데이터 수집부터 모델 배포 관리까지 파이프라인 구성

1개의 댓글

comment-user-thumbnail
2024년 6월 14일

저도 직장인인데 데이터 분석가로 커리어 전환 준비 중이거든요..! 좋은 취준 팁 얻고 갑니다! 다른 사람들은 어떻게 공부하는지 궁금할 때 가끔 블로그 찾아보고 있는데 도움이 많이 됩니다~! 혹시 저처럼 직장 병행하느라 시간 부족하신 분들은 저랑 같이 공부해보시면 어떨까요..ㅎㅎ 저도 많이 부족하긴 하지만, 현직자분들이 직접 저녁까지 1:1로 코칭해주시거든요..!
고민 중이신 분들 있다면 한 번 들어와서 보셔요..! → https://zrr.kr/6gjj

답글 달기