Numerical Data(수치형)
: 수치 값으로 표현되는 데이터. 연속적 or 이산적
ex.) 연속적 : 키, 몸무게, 온도 등
ex.) 이산적 : 판매된 제품 개수, 사람 수 등
Categorical Data(범주형)
: 명확하게 분류 및 라벨링 될 수 있는 데이터
ex.) 순서가 있는(ordinal) : 학력 수준 등
ex.) 순서가 없는(Nominal) : 국적, 색상, 성별 등
증감률(%)
: 기존 값 대비 값이 얼마나 변화했는지의 비율
퍼센티지 포인트(%p)
: 퍼센트의 증감을 나타내는 단위 ( 퍼센트 자체의 변화를 나타냄)
평균(Mean)
중앙값(Median)
: 크기 순으로 정렬한 데이터에서 중앙에 위치한 값
최빈값(Mode)
: 가장 빈도가 많은 값
범위(Range)
분산(Variance)
: 데이터가 중심(평균)으로부터 얼마나 멀리 떨어져 있는지
표준편차(Standard Deviation)
: 분산에 루트를 씌어 자료의 단위와 동일하게 표현
표본 및 표본 평균
상관분석
: 연속형 변수로 측정된 두 변수 간의 선형적 관계를 분석하는 기법
| 상관계수 크기 | 의미 |
|---|---|
| +- 0.8~1.0 | 매우 강함 |
| +- 0.6~0.8 | 강함 |
| +-0.4~0.6 | 중간 |
| +-0.2~0.4 | 약함 |
| +- 0.0~0.2 | 매우 약함 |
상관계수
피어슨 상관계수(Pearson correlation coefficient)
: 두 변수의 선형관계 측정
대표 문제 유형
일반적으로 ML/DL/을 활용하여 해결하려는 현업의 문제 유형
회귀분석
목표
: 독립 변수(X)와 종속 변수(Y)간의 관계 모델링 → 주어진 독립 변수에 대한 종속 변수의 값 예측
원리
독립 변수와 종속변 수 간의 선형 방정식을 찾아내는 방법
metric
대표 알고리즘
선형 회귀
회귀식
:
: 예측된 회귀선
: 절편(y intercept)
: 회귀 계수(slope로 볼 수 있음)
: 독립변수, 예측변수, 설명변수, 특성(feature)
: 종속변수, 반응변수, 레이블, 타겟(target)
평가지표