4일차-1 Python 프로그래밍 & 라이브러리

정지원·2024년 2월 23일
0

에이블 스쿨 복습

목록 보기
6/51
post-thumbnail

5. 데이터 분석 / 모델링을 위한 데이터 구조

CRISP-DM

이 그림은 CRISP-DM(Cross Industry Standard Process for Data Mining)은 데이터 분석 방법론으로서 매우 중요한 부분이다.

이건 어느 기업이든 데이터 분석 방법론을 기반으로 프로젝트가 짜여지게 된다.

1) Business Understanding: 비즈니스 이해

  • 무엇인 문제인지 인지하는 단계로 비즈니스 문제를 해결하거나 정의 한다.

2) Data Understanding: 데이터 이해

  • 데이터를 분석하고 데이터 수집, 웹 크롤링 등을 수행할 수 있는 단계이다.

3) Data Preparation: 데이터 준비

  • 데이터를 전처리하는 단계로 모델링을 위한 데이터 구조를 준비한다.

4) Modeling: 모델링

  • 전처리한 데이터를 ML/DL 등을 실시한다.

5) Evaluation: 평가

  • 모델링을 하는 기반으로 예측하거나 평가하여 문제가 해결되는지 확인한다.

6) Deployment: 배포

  • 웹 서비스 구축을 실시한다. ex)MLOps 등을 사용함

이러한 방식으로 현업에서 많이 사용된다.

데이터

수치형과 범주형

데이터는 크게 범주형과 수치형으로 나뉜다

  • 수치형
    * 양적 데이터, 정량적 데이터 라고도 한다.
    • 이산형 데이터(셀 수 있는), 연속형 데이터(셀수 없는)으로 나눌 수 있다.
      • 이산형: 판매량, 매출액, 나이
    • 연속형: 온도
  • 범주형
    * 질적 데이터, 정성적 데이터 라고도 한다.
    • 직접 결정을 하고 수치형 데이터를 통해 만들어 내는 것이다.
    • 그룹으로 묶을 수 있고, 묶은 그룹끼리 공통된 특징이 있다.
    • 명목형 데이터(yes or no)(True or False), 순서형 데이터(2개 이상으로 나뉘는 것)로 나눌 수 있다.
    • 명목형: 성별, 시도, 흡연 여부
    • 순서형: 연령대, 매출 등급

분석가능 데이터

위 그림은 2차원 데이터 이다.

1) 열, 정보, 변수, 요인: 국어점수, 수학점수, 물리점수, 영어점수

  • 이걸 feature, X, input, 독립변수 라고도 한다.

2) 행, 분석단위, 샘플, 관측치, 데이터 건수, 단위 데이터: 학번 속의 20190101, 20191023, 20181234 이다.

  • 이걸 Target, y, Output, Label, (종속변수) 라고도 한다.
  • 일반적으로 우리가 만들어야하는 데이터 이다.

또 다른 예시로는
통신사의 경우 이동통신사업자를 가입한 사람의 이탈 여부를 예상하고 싶다.

  • 이탈여부(종속변수)는 범주형 데이터 이다.
  • 여기서 변수, 요인 독립변수는 약정, 만족도, 할인율, 기간, 요금, 결합가족 등이 있다.
  • 여기서 사용자 데이터샘플, 관측치, 단위 데이터 등이 있다.

이런 것들을 분석과 모델링을 하기 위해 사용하는 것이 numpy, pandas이다.

[참고] 한기영 강사님 수업자료

profile
뒤늦게 프로그래밍을 시작한 응애

0개의 댓글