9/25 4, 5세션
A. 분석 가능한 데이터
A-1. 데이터 분류
범주형
수치형
A-2. 식별 방법
ex) 연, 월, 일 : 범주형 데이터
ex) 개월 : 이산형 데이터
A-3. 데이터 구조
열 (row column)
x : feature = 요인, input, 독립변수
y : target = 결과, output, 종속변수, label
행
분석 단위, 관측치, Data Point
분석 단위
분석 대상에 대한 단위
- 고객 별 이탈 여부 : 고객 한 명 한 명의 데이터
- 일별 주가 : 하루 하루의 주가 데이터
A-4. 데이터 전처리
- 데이터 구조 만들기 (행, 열 구성)
- 모델링을 위한 전처리 (결측치 제거, 숫자형 등)
B. EDA & CDA
EDA : 탐색적 데이터 분석 (그래프, 통계량 등)
CDA : 확증적 데이터 분석 (가설검정, 실험 등)
알아야 할 사항
- 언제, 어떤 그래프를 그리고 어떻게 해석
- 언제, 어떤 통계량을 구하고 어떻게 해석
- 언제, 어떤 가설검정 방법을 사용하고 어떻게 해석
B-1. 분석 진행 순서
- 단변량 분석 : 개별 변수의 분포
- 이변량 분석1 : feature와 target 간의 관계 (가설 확인)
- 이변량 분석2 : feature들 간의 관계