빈도
를 <표>로 나타내는 것.자료의 형태에 따른 분류
- 독립변수 : 범주형 / 종속변수 : 범주형
=> 빈도분석, 카이제곱 검정, 로그선형모형
- 독립변수 : 연속형 / 종속변수 : 범주형
=> 로지스틱 회귀분석
- 독립변수 : 범주형 / 종속변수 : 연속형
=> T검정, 분산분석
- 독립변수 : 연속형 / 종속변수 : 연속형
=> 상관분석, 회귀분석
빈도분석
: 질적자료를 대상으로 빈도
, 비율
계산
로지스틱 회귀분석
: 대상이 두 개 이상 집단으로 구분될 때, 개별 관측치의 분류 예상 분석
카이제곱 검정 / 교차분석
: 두 범주형 변수가 서로 상관 or 독립 판단
T검정
: 두 집단 간 평균 비교
분산분석
: 두 집단 간 분산 비교
t-검정
, ANOVA
, 회귀분석
등) 여러 개를 동시에 수행종속기법 : 독립변수가 종속변수에 미치는 영향력 분석
상호의존적 기법 : 독립, 종속변수에 대한 구분 없이, 전체를 대상으로 분석
비정량적 자료
정량적 자료
변량 : 수집 원본(변수)에 가중치를 부여한 변수들의 합으로 구성된 새로운 변수
다중회귀분석 : Multiple Regression
: 다수의 독립변수 변화에 따른 종속변수의 변화 예측
다변량분산분석 : Multiple ANOVA
: 2개 이상 범주형 독립변수와 2개 이상 종속변수 간 관련성 파악
다변량공분산분석 : Multiple ANCOVA
: 통제되지 않은 독립변수들의 종속변수에 대한 효과 제거
정준상관분석
: 종속변수군과 독립변수군 간 상관을 최대화하는 각 변수 군의 선형조합 도출
요인분석 : Factor Analysis
: 많은 변수들 간 상호관련성 분석, 설명 가능한 공통요인 도출(요약)
: 변수 간 상호의존성 파악, 변수 차원 축소, 요인 해석
: 주성분분석(PCA
), 최대우도법
기반 수행
군집분석
: 사전 정의가 없는 집단에 대해 표본 간 유사성에 기반해 분류 체계 도출
다중판별분석
: 비계량적 종속변수(성별, 난이도 등), 계량적 독립변수의 경우
(각 표본이 여러 개의 집단으로 분류됨)
: 집단 간 차이를 판별해 A
가 특정 집단에 속할 가능성 예측
다차원척도법 : MDS
: 원래의 차원보다 낮은 차원(2차원
)에 위치시켜, 개체들 간 구조, 관계 파악 용이
: 다차원 관측값, 개체 간 거리, 비유사성을 이용해 차원축소
시계열 자료 구분
- 이산 : 관측값들이 이산적 분리
- 연속 : 연속적 관측값
- 시차 : 관측 시점 사이의 간격
불규칙 성분
: 시간과 무관한 성분
: 랜덤 변동
체계적성분
: 시간에 따른 규칙이 존재하는 변동성분
추세성분
: 관측값이 지속적 증가 or 지속적 감소
: 추세(trend)를 포함
계절성분
: 주기적성분에 의한 변동 형태
순환성분
: 주기가 긴 변동
복합성분
: 추세성분 + 계절성분
자기상관성
: 시차값들 간 선형관계가 있는 경우
백색잡음
: 자기상관성이 없는 무작위한 움직임의 데이터
시계열 데이터의 평균, 분산이 일정한 경우
: 분석이 용이함
: 정상성이 없는 데이터의 경우, 정상성을 갖도록 정제 과정 필요
A
의 정도를 B
에서 사용 가능 (일반화)평균이 일정하지 않을 때
: 차분(difference
)를 통해 정상성 부여
분산이 일정하지 않을 때
: 변환(transformation
) 과정을 거쳐 정상성 부여
이동평균법 : MA
: 일정기간 시계열을 이동하며 평균 계산
: 추세를 파악하고 다음 기간 예측
지수평활법
: 모든 시계열 데이터를 사용함
: 최근 시계열에 더 많은 가중치를 부여
: 단 기간에 발생하는 불규칙 변동 평활 시에 사용 + 중기 이상의 시계열 데이터
분해법
: 시계열 자료의 성분 분류대로 분해
: 체계적성분(추세, 계절, 순환)을 분리해 분석 및 예측
AR
p
시점 전의 자료가 현재에 영향)AR(p)
= 이전 p
개 값(차수)에 의존하는 모형AR계수
: 이전값과 현재값의 자기상관계수자귀회귀이동평균모형 : ARMA
: 자기회귀 + 이동평균
: 오차항에 의해서만 시계열 결정
: ARMA(p,q)
= 현재 값이 이전q
개의 이전 예측 오차에 의존
자기회귀누적이동평균모형 : ARIMA
: 비정상성을 가지는 시계열 데이터 분석에 사용
: AR
+ MA
+ 차분 (현재값 - 이전값)
: ARIMA(p, d, q)
= d
는 차분(경향성 제거)
P(A|B) = P(B|A) * P(A) / P(B)
∂0, ∂1
이 특정 값이 아닌 분포를 갖는다면,P(model | data) = P(data | model) * P(model) / P(data)
이벤트 모델
: 사전확률 / 특성분포에 대한 가정을 기반으로 데이터 설명 및 예측
: 각 클래스 간 사전확률은 동일
: Training Set으로부터 각 클래스의 샘플 수 기반한 사전확률 추정
ex) Class 3개 = 각 Class의 사전확률은1/3
종류
- 가우시안 나이브 베이즈
: 연속적 값- 다항분포 나이브 베이즈
: 이산적 특징, 특성 벡터가 다항분포에 의해 생성- 베르누이 나이브 베이즈
: 아산적 특징, 특성 벡터가 독립적 이진 변수로 표현
ANN
: 시냅스 결합 → 네트워크 → 학습 → 시냅스 결합 세기 변화 → 문제 해결 능력
: 계산 속도 저하, 초기치의존성, 과적합 우려
Deep Learning
: 여러 개의 비선형 변환 기법 조합을 통해 높은 수준의 추상화 시도
: ANN
단점 해소
Deep Learning
원리
: 은닉층多 → 여러 단계의 신경망 구성을 통한 정확도 향상
심층 신경망 DNN
: 입력층 ↔ 출력층 사이 여러 개의 은닉층으로 이루어진 인공 신경망
: 복잡한 비선형관계 모델링
합성곱 신경망 CNN
: 최소한의 전처리, 다계층 퍼셉트론
: 하나 이상의 합성곱(Convolution Layer
) + ANN
+ 가중치 + (Pooling Layer
)
: 오차 역전파를 통한 훈련
순환 신경망 RNN
: 인공 신경망 구성 유닛 사이 연결(directed cycle
)
: 신경망 내부 메모리를 통해 임의 입력 처리
: Sequence Data Modeling을 통해 지금까지의 Input Data를 요약(기억)
심층 신뢰 신경망 DBN
: 잠재변수의 다중계층으로 이루어진 심층 신경망
: 계층 간 연결 OK, 계층 내 연결 X
통계학
: 탐색적 자료분석, 가설 검정, 다변량분석, 시계열분석, 일반 선형 모형
DB 기술
: OLAP
, SOM
, 신경망
Classification
Clustering
Association
: 동시 사건 간 관계Sequencing
: 특정 기간에 걸쳐 발생한 사건들Forecasting
Text Mining
: Text to Vector
= 단어/문장 → 수치적 형태
Web Mining
Opinion Mining
Reality Mining
약학습기
: 오차율이 일정 이하인 학습 규칙, 무작위 X강학습기
: 약학습기로부터 만들어내는 강력한 학습 규칙
Voting
: 보팅
: 서로 다른 알고리즘 모델 조합, 결과물에 대해 투표
: Bagging
은 동일 알고리즘 내 다른 표본 데이터 조합
Hard voting
: 결과물에 대한 최종값 투표Soft voting
: 최종 결과에 대한 확률값 합산 후 최종값 도출Boosting
: 부스팅
: 가중치를 활용해 연속적인 약학습기 생성 → 강학습기 도출
: 순차적 학습으로 가중치 부여 → 오차 보완
: 병럴처리 어려움, 학습시간 오래 걸림
Bagging
: 배깅
: 동일 알고리즘 내 다른 표본 데이터 조합(Bootstrap
)
→ 각 모델 학습
→ 결과 집계(Aggregation
)
: Random Forest
Stacking
: 스태킹
: 개별 모델의 예측결과를 취합해 Meta Model
학습,
Meta Model
이 최종 예측 수행
: 개별 모델들의 다양성 중요
통계학에서 모수에 대한 가정을 전제로 하지 않고
모집단의 형태에 관계없이 주어진 데이터에서 직접 확률 계산 → 통계학적 검정
모수 통계
: 데이터 분포 or 모수(평균, 분산)을 안다고 가정
∂
f(x) = ax + b
에서 a
, b
부호검정 : Sign Test
: 관측치 간 대소 비교에 따른 사실 검정
: 데이터 순서, 크기를 가정하지 않고, only 부호(>, =, <
)만
윌콕슨 부호순위 검정
: 대소 부호 + 관측치 간 차이의 크기 순위
: 동일 개체에 대한 두 관측값
ex) 약 투여 전/후 체온 변화 비교
만-휘트니 U 검정
: 두 집단 간 중심 위치 비교
: 두 독립 그룹 간의 위치적 차이 비교
ex) 두 집단 성적 비교
크루스칼-왈리스 검정
: 3개 이상 집단의 중앙값 차이
: 독립 표본 데이터에 대해 그룹 간 순위차이 검정