값 | 의미 |
---|---|
기술 통계 (Descriptive Statistics) | - 데이터를 확률 및 통계적으로 정리/요약한 기초적인 통계 - 평균, 분산, 표준편차, 왜도와 첨도, 빈도 등 - 막대 그래프, 파이 그래프 등 그래프를 활용한 데이터 파악 - 분석 초기 단계에서 데이터 분포의 특징 파악 |
상관 분석(Correlation Analysis) | - 둘 또는 셋 이상의 변수들 사이의 연관 정도를 분석 - 데이터의 속성에 따라서 수치적, 명목적, 순서적 데이터 등을 가진다. |
회귀 분석(Regression Analysis | - 하나 이상의 독립변수들이 종속변수에 미치는 영향을 추정할 수 있는 통계 기법 - 독립변수와 종속변수의 개수 및 특성에 따라 다음과 같이 분류 # 단순 회귀 : 독립변수 1개, 종속변수와의 관계가 직선 # 다중 회귀 : 독립변수 k개, 종속변수와의 관계가 선형(1차 함수) ❖ 선형 1차 함수가 직선과 다르게 구분한 것은 독립변수의 증가로 인한 Dimension의 증가 때문이다. 엄밀히 말하자면 직선의 정의가 점과 점 사이를 곧게 잇는 선인데 이는 3차원이하의 평면에서 가능하다. # 다항 회귀 : 독립변수와 종속변수의 관계가 1차 함수 이상인 관계(독립변수가 1개인 경우는 2차 함수 이상) # 로지스틱 회귀 : 종속변수가 범주형(2진 변수)인 경우 # 곡선 회귀 : 관계가 곡선 # 비선형 회귀 : 관계가 비선형 |
분산 분석(Analysis of Variance, ANOVA) | - 두 개 이상의 집단 간 비교를 수행 - 집단 간의 통계적인 차이 판정 - 일원분산/이원분산/다변량분산 분석으로 구분 |
주성분 분석(Principal Component Analysis, PCA) | - 원래 변수의 선형 결합으로 많은 변수의 분산 방식의 패턴을 간결하게 표현하는 주성분 변수를 추출하는 통계 기법 |
- 정확도(Accuracy)
▶︎ 실제 분류 범주를 정확하게 예측한 비율- 정밀도(Precision)
▶︎ '참'으로 예측한 비율 중에서 실제로 '참'인 비율- 재현율(Recall)
▶︎ 실제 '참'을 '참'으로 분류한 비율- 향상도(Lift)
▶︎ 항목 집합 X가 주어지지 않았을 때 Y의 확률 대비 X가 주어졌을 때 Y의 확률 증가 비율