
이 그림은 CRISP-DM(Cross Industry Standard Process for Data Mining)은 데이터 분석 방법론으로서 매우 중요한 부분이다.
이건 어느 기업이든 데이터 분석 방법론을 기반으로 프로젝트가 짜여지게 된다.
1) Business Understanding: 비즈니스 이해
2) Data Understanding: 데이터 이해
3) Data Preparation: 데이터 준비
4) Modeling: 모델링
5) Evaluation: 평가
6) Deployment: 배포
이러한 방식으로 현업에서 많이 사용된다.
데이터는 크게 범주형과 수치형으로 나뉜다

위 그림은 2차원 데이터 이다.
1) 열, 정보, 변수, 요인: 국어점수, 수학점수, 물리점수, 영어점수
2) 행, 분석단위, 샘플, 관측치, 데이터 건수, 단위 데이터: 학번 속의 20190101, 20191023, 20181234 이다.
또 다른 예시로는
통신사의 경우 이동통신사업자를 가입한 사람의 이탈 여부를 예상하고 싶다.
- 이탈여부(종속변수)는 범주형 데이터 이다.
- 여기서 변수, 요인 독립변수는 약정, 만족도, 할인율, 기간, 요금, 결합가족 등이 있다.
- 여기서 사용자 데이터가 샘플, 관측치, 단위 데이터 등이 있다.
이런 것들을 분석과 모델링을 하기 위해 사용하는 것이 numpy, pandas이다.
[참고] 한기영 강사님 수업자료