분석(Modeling)할 수 있는 정보(Data)의 종류
수치형 (양적/정량적 데이터)
- 이산형 데이터: 셀 수 있으며, 보통 시작점인 '0' 값이 있음.
통화량, 소득수준, 가입기간, 나이
- 연속형 데이터: 셀 수 없으며, 보통 자연계의 수치.
온도, 습도, 몸무게, 키
범주형 (질적/정성적 데이터)
- 명목형 데이터: 성별, 주소지, 흡연 여부 등
Yes / NO, 1 / 0, Female / male ...
- 순서형 데이터: 연령대 (10대, 20대, 30대,..), 고객등급 (a, b, c, d..)
순서가 있음
→ 원래 숫자였던 데이터를 범주로 만들기 (pd.cut, pd.qcut)
분석하기 위한 데이터의 구조
x
: feature, 요인, input, (독립변수)
y
: target, label, 결과, output, (독립변수)
columns
: 정보, 변수, 열
row
: 분석단위, 관측치, 행
- 분석단위: 분석 대상에 대한 단위를 의미
- 고객 별로 이탈 여부를 예측한다면, 분석 단위는 고객 한 명, 한 명
- '일별 주가'를 예측한다면, 분석단위는 하루, 하루의 주가 데이터