EDA
결측치 유무
, 이상치 유무
) 확인이상치 검출방법
- 개별 데이터 관찰
- 통계값 활용
IQR
: 사분위 범위 기반 이상치 제거정규분포
:μ - 2σ
~μ + 2σ
- 시각화
- 머신러닝 ( ex)
K-means
)
두 변수는 독립적이거나 상관 관계에 있다.
단순 상관분석
: 2개 변수 간 관계의 강도
다중 상관분석
: 3개 이상 변수 간 관계의 강도
Partial
)선형성
: X
, Y
간 관계가 직선적인가?
: 산점도를 통해 확인
동변량성(등분산성)
: X
값에 관계 없이 Y
값의 흩어짐 정도가 일정한가
두 변인의 정규분포성
: X
, Y
의 측정치 분포가 모집단에서 정규분포를 따르는가
무선독립표본
: 모집단에서 추출된 모든 표본이 서로 독립적
: 한 관측치의 값이 다른 관측치의 값에 영향 X
linear
)의 강도 / 방향 측정X
, Y
간 선형 상관 관계를 -1 ~ 1
값으로 측정+1
= 양의 상관0
= 상관 관계 X-1
= 음의 상관
키
-몸무게
,공부 시간
-성적
등
monotonic
)의 강도 / 방향 측정rank
)를 통해 계산스피어만 상관 계수 값
1
에 가깝다. = 단조적 상관석0
= 상관성이 없다.
고객 만족도 순위
-제품 품질 순위
등
산술 평균
: 모평균μ
, 표본 평균X
(X_bar)
기하 평균
: n
개의 양수들을 모두 곱한 후 n제곱근
을 취한 값
: 평균물가상승률 의 비율, 성장률 값에 대한 평균
: 일반적으로 산술 평균 ≥ 기하 평균
조화 평균
: 각 요소의 역수에 대한 산술 평균 → 역수
: 자료 동일 시, 조화 = 산술 = 기하
: 자료 상이 시, 조화 ≤ 기하 ≤ 산술
중앙값
최빈값
분위수
: 자료의 위치
: 몇등분 하느냐에 따라 사분위수
, 십분위수
등
: 자료의 퍼짐 정도
: 중심 위치의 측도 + 중심 경향도 수치에서 자료의 떨어짐 정도
분산, 표준편차
: 평균을 중심으로 밀집/퍼짐의 정도
: 각 자료값에 대한 정보 반영
: 특이점에 영향이 크다.
: 분산 ∝ 자료의 분포형태
범위
: MAX
~ MIN
평균 절대편차 : MAD
: | 자료값과 표준평균과의 편차 |
에 대한 산술평균
: ∑|X - AVG| / n
사분위 범위 : IQR
: Q3 - Q1
, 이상치 판단에 사용
변동계수 : CV
: 평균을 중심으로 한 산포의 상대적 척도
: CV
∝ 분포의 정도
Skewness
왜도 = 0
→ 대칭, 평균 = 중앙값 = 최빈값
왜도 > 0
→ 왼쪽 치우침, 평균 > 중앙값 > 최빈값
왜도 < 0
→ 오른쪽 치우침, 평균 < 중앙값 < 최빈값
|왜도| > 1.96
→ 비대칭성피어슨 비대칭 계수
: 분포가 좌우로 얼마나 대칭적인지
: 왜도를 측정하는 간단한 통계량
- 최빈값을 알 때 : 제 1 비대칭 계수
- 최빈값 모를 때 : 제 2 비대칭 계수
Kurtosis
첨도 > 3
→ 뾰족, 첨도 = 3
→ 정규 분포, 첨도 < 3
→ 평평도수 분포표
: 계급에 의한 분류
: 질적자료를 범주에 대한 도수(상대도수)로 표현
도수 / n
히스토그램
: 도수분포표를 통해 표분의 자료분포 표현
: 가로축 = 수량
막대 그래프, Pie Chart
산점도 : Scatter Plot
줄기 잎 그림
상자 수염 그림 : Box Plot
다차원 데이터 : 공간 정보 + 시간적 흐름
시간 데이터
: 어느 한 시점에 대한 스냅샷 정보
: 유효시간
, 거래시간
, 이원시간(거래 + 유효)
등
공간 데이터
: 레스터 공간(실세계 객체 이미지), 벡터 공간, 기하학적 타입, 위상(공간 객체 간 관계)
공간 데이터 모델
관계형
: 데이터 표현 유연하지 않음
: 실세계 객체 표현 X객체지향
: 비구조적, 데이터 표현 자연스러움
: 연산 및 확장, 무결성 검사 쉬움
True/False
True/False
: 변수 간 인과관계 규명 및 분석
Multiple Regression
Y
에 대해 독립변수 X
가 k
개선형
Logistic Regression
Y
= [0, 1]
P(y|x)
는 이항분포ANOVA
F-통계량
귀무가설 : 모든 집단의 평균은 동일
대립가설 : 적어도 한 쌍의 집단 평균은 다름
if F > 1 : 귀무가설 기각
: 측정형 변수, 종속 변수가 2개 이상
: 독립 변인의 수가 2개
공분산 : 2개의 확률 변수의 상관 정도
Cov(A, B) = 0
) = 공분산 0Cov(A, B) = 0
이라고 해서 A, B
가 상호 독립은 아님P(X, Y) = P(X) x P(Y)
= 상호 독립 공분산 및 상관계수 확인
: 공분산 = 0 and
상관계수 = 0, X, Y
독립
독립성 검정
: 카이제곱 독립성 검정법
등
PCA
)N
개의 변수 → 서로 독립인 K
개의 주성분 도출K < N
요인 분석
: 변수 간 상관 관계 분석 → 요인Factor
기반 공통차원을 통해 축약
: 독립/종속 변수 개념 X
정준 상관 분석
: 정준 변수 = 집단 간 상관 구조를 가장 잘 설명하는 변수 간 선형 결합
: 정준 상관 계수 = 정준 변수 간 상관 계수
: 두 집단 중 변수의 수가 적은 집단의 변수 수 만큼의 정준 변수 도출
Cluster Analysis
군집 분석 방식 구분
- 계층적 군집 분석
: 차례로 군집화, 한 번 병합되면 분리하지 않음- 비계층적 군집 분석
: 산포 측도 이용, 재분류 가능- 조밀도
: 데이터 분포 특성에 따라 군집화- 그래프
: 시각적 군집화(2, 3차원으로 축소 필수)
MDS
Data Mining
: 대규모 데이터에서 통계적 규칙, 패턴을 분석해 가치있는 정보 추출
: 탐색적 자료분석, 가설 검정, 시계열 분석 등
: OLAP
, SOM
, 신경망
등의 기술적 방법론 사용
Classification
, Clustering
, Association
, Sequencing
, Forecasting
Text Mining
: NLP
를 통해 데이터의 숨겨진 의미 발견
Opinion Mining
: 사람의 주관적 의견을 통계/수치화 → 객관적 정보
: NLP
를 통해 감정 및 뉘앙스, 태도를 파악
Web Mining
: 웹 자원으로부터 유의미한 패턴 및 추세 도출
: log
, User Action
등을 마케팅에 사용