[Data Analysis] 데이터 구조와 EDA & CDA
1. 분석 할 수 있는 데이터(정보)의 종류
- 수립한 가설에서 x와 y 모두 '정보'라 부름
- 데이터 종류
- 범주형 데이터(질적 데이터, 정성적 데이터)
- 명목형 데이터(ex) 성별, 주소 등)
- 순서형 데이터(ex) 등급, 학년 등)
- 수치형 데이터(양적 데이터, 정량적 데이터)
- 이산형 데이터(ex) 나이, 통화량 등)
- 연속형 데이터(ex) 온도, 몸무게 등)
2. 분석을 위한 데이터 구조
- x : 특징, 요인, input, 독립변수
- y : 목표, 결과, output, 종속변수, Label
- 2차원 구조
- 열 : 정보, 변수
- 행 : 분석 단위, 관측치
3. 전처리 종류
- 데이터 구조 만들기 -> EDA & CDA
- 모델링을 위한 전처리 -> ML, DL 모델링
4. EDA와 CDA 진행 순서
- target : 암 발생 여부
- feature : 흡연, 나이, 성별
4-1. 다변량 분석
4-2. 이변량 분석 1
- feature와 target 간의 관계(가설 확인 단계)
- 흡연에 따른 암 발생 여부
4-3. 이변량 분석 2
- feature들 간의 관계
- 나이와 흡연에 대한 관계 확인