Time Series
) : 일정 시간 간격 동안 수집, 시간 개념이 포함된 자료 (ex) 주식)Cross Sectional
) : 횡단면 자료, 특정 단일 시점에 여러 대상으로부터 수집분석에 필요한 데이터 추출 및 통합
: 데이터 구성의 일관성 향상 + 도출된 결과의 신뢰성 향상
비정형 데이터는 기본적으로 정형 데이터로 변환하면서 결측치, 오류 수정의 과정을 거침
: 데이터 수집 ▶ 변환 ▶ 교정 ▶ 통합
Aggregation
)SUM
, AVG
, 중앙값, 최빈값, MIN
, MAX
Generalization
)Normalization
)Smoothing
)이동평균법
, 지수평활법
따라서, 데이터에 기반한 결측치 처리 방안 필요
MCAR : 완전 무작위 결측
: 결측 데이터와 나머지 간 관계 X
MAR : 무작위 결측
: 결측 데이터와 관측 데이터간 관계 O, 비관측 데이터간 관계 X
NMAR : 비무작위 결측
: 결측 변수 값이 결측 이유와 관련
단, 효율성, 자료처리의 복잡성, bias 고려 필수
완전 분석 : 불완전 자료 완전 무시
=> 분식 용이성↑, 효율성↓ 및 통계적 추론 타당성↓
평균 대치법 : 결측치 = 데이터들의 평균
=> 효율성↑, 통게량 표준오차 과소 추정
회귀 대치법 : 회귀분석에 의한 예측치로 결측치 대치
=> 데이터 변동성 반응↑, 독립변수와 종속변수간 관계가 강할 수록 신뢰성이 올라감
단순 확률 대치법 : Hot-Deck 방법, 확률 추출에 의해 전체 데이터 중 무작위로 대치
최근접 대치법 : 전체 표본을 몇 개의 대체군으로 분류 → 응답 자료를 순서대로 정렬해 결측값 이전 데이터로 대치
=> 응답값 중복 사용 가능
통계적 효율성 및 일치성 문제를 보완함
: n
개의 단순 대치 → n
개의 새로운 자료에 대한 분석 시행 → 결과 통계량에 대해 통계량 및 분산 결합
다중 대치 단계
대치 단계
: 복수의 대치에 의한 결측을 대치한 데이터 생성
분석 단계
: 복수개의 Dataset에 대한 분석 시행
결합 단계
: 분석결과들에 대한 통계적 결합으로 결과 도출
단변수
: 하나의 데이터 분포에서 발생하는 이상치
다변수
: 연결된 데이터 분포들에서 발생하는 이상치
: 입력 실수, 측정 오류, 실험 오류, 의도적 이상치, 자료처리 오류, 표본 오류(모집단에서 표본 추출 중 발생한 bias)
Parametric
) vs 비모수적(Non-Parametric
)= 독립변수: 범주형, 종속변수: 수치형
시각화
Box-Plot
): 데이터 분포를 한 눈에 파악 가능
: 최소값, 최대값, 중앙값, 1사분위수(Q1
, 25%), 3사분위수(Q3
, 75%)
: 사분위 범위(A
) = Q3 - Q1
: 최대값 = Q3 + 1.5 x A
/ 최소값 = Q1 - 1.5 x A
: 이상치 = value > (Q3 + 1.5 x A)
or value < (Q1 - 1.5 x A)
Z-Score
: Data Point와 평균과의 거리를 표준편차 단위로 표현
=> 데이터가 정규 분포를 따른다는 가정 하에
Z-Score
계산 : Z = x−μ / σ
1σ
: 68.27%, 2σ
: 95.45%, 3σ
: 99.73% DBSCAN
: 군집 간 밀도 이용
: 특정 거리 내 데이터 수 > 지정 개수
=> 군집 형성
고립의사나무 : Isolation Forest
: 데이터가 다른 데이터들과 얼마나 분리되어있는지 측정