[빅데이터분석기사] Part3 - CH 02. 분석 기법 적용 (2)

조민수·2025년 8월 21일
0

빅데이터분석기사

목록 보기
10/13
post-thumbnail

Section 02. 고급 분석 기법

1. 범주형 자료분석

  • 변수들이 이산형 변수일 때, 빈도를 <표>로 나타내는 것.

1-1. 분석 방법

자료의 형태에 따른 분류

  1. 독립변수 : 범주형 / 종속변수 : 범주형
    => 빈도분석, 카이제곱 검정, 로그선형모형
  1. 독립변수 : 연속형 / 종속변수 : 범주형
    => 로지스틱 회귀분석
  1. 독립변수 : 범주형 / 종속변수 : 연속형
    => T검정, 분산분석
  1. 독립변수 : 연속형 / 종속변수 : 연속형
    => 상관분석, 회귀분석
  • 빈도분석
    : 질적자료를 대상으로 빈도, 비율 계산

  • 로지스틱 회귀분석
    : 대상이 두 개 이상 집단으로 구분될 때, 개별 관측치의 분류 예상 분석

  • 카이제곱 검정 / 교차분석
    : 두 범주형 변수가 서로 상관 or 독립 판단

  • T검정
    : 두 집단 간 평균 비교

  • 분산분석
    : 두 집단 간 분산 비교


2. 다변량 분석

  • 조사 대상에 대한 다수의 측정치를 동시에 분석
  • 종속 변수의 관계성 고려 선행
  • 일변량 분석(t-검정, ANOVA, 회귀분석 등) 여러 개를 동시에 수행

2-1. 용어

  • 종속기법 : 독립변수가 종속변수에 미치는 영향력 분석

  • 상호의존적 기법 : 독립, 종속변수에 대한 구분 없이, 전체를 대상으로 분석

  • 비정량적 자료

    • 명목척도 : 단지 분류만을 위해 사용되는 수(의미X)
    • 순위척도 : 명목척도 + 순위 표현
      : 값 자체의 의미를 가지나 간격과 비율은 의미 없음
  • 정량적 자료

    • 등간척도 : 측정된 값, 값 간의 차이는 의미 있음
    • 비율척도 : 측정값, 간격, 비율 모두 의미를 가짐
      : 가장 높은 측정 단위
  • 변량 : 수집 원본(변수)에 가중치를 부여한 변수들의 합으로 구성된 새로운 변수

2-2. 기법

  • 다중회귀분석 : Multiple Regression
    : 다수의 독립변수 변화에 따른 종속변수의 변화 예측

  • 다변량분산분석 : Multiple ANOVA
    : 2개 이상 범주형 독립변수와 2개 이상 종속변수 간 관련성 파악

  • 다변량공분산분석 : Multiple ANCOVA
    : 통제되지 않은 독립변수들의 종속변수에 대한 효과 제거

  • 정준상관분석
    : 종속변수군과 독립변수군 간 상관을 최대화하는 각 변수 군의 선형조합 도출

  • 요인분석 : Factor Analysis
    : 많은 변수들 간 상호관련성 분석, 설명 가능한 공통요인 도출(요약)
    : 변수 간 상호의존성 파악, 변수 차원 축소, 요인 해석
    : 주성분분석(PCA), 최대우도법기반 수행

  • 군집분석
    : 사전 정의가 없는 집단에 대해 표본 간 유사성에 기반해 분류 체계 도출

  • 다중판별분석
    : 비계량적 종속변수(성별, 난이도 등), 계량적 독립변수의 경우
    (각 표본이 여러 개의 집단으로 분류됨)
    : 집단 간 차이를 판별해 A가 특정 집단에 속할 가능성 예측

  • 다차원척도법 : MDS
    : 원래의 차원보다 낮은 차원(2차원)에 위치시켜, 개체들 간 구조, 관계 파악 용이
    : 다차원 관측값, 개체 간 거리, 비유사성을 이용해 차원축소


3. 시계열분석

  • 주식과 같이 시간 흐름에 따라 관측되는 데이터

    시계열 자료 구분

    1. 이산 : 관측값들이 이산적 분리
    2. 연속 : 연속적 관측값
    3. 시차 : 관측 시점 사이의 간격

3-1. 성분

  1. 불규칙 성분
    : 시간과 무관한 성분
    : 랜덤 변동

  2. 체계적성분
    : 시간에 따른 규칙이 존재하는 변동성분

  • 추세성분
    : 관측값이 지속적 증가 or 지속적 감소
    : 추세(trend)를 포함

  • 계절성분
    : 주기적성분에 의한 변동 형태

  • 순환성분
    : 주기가 긴 변동

  • 복합성분
    : 추세성분 + 계절성분

  • 자기상관성
    : 시차값들 간 선형관계가 있는 경우

  • 백색잡음
    : 자기상관성이 없는 무작위한 움직임의 데이터

3-2. 정상성

  • 시계열 데이터의 평균, 분산이 일정한 경우
    : 분석이 용이함
    : 정상성이 없는 데이터의 경우, 정상성을 갖도록 정제 과정 필요

    • 공분산이 시차에만 의존한다면, 정상시계열은 평균회귀 경향성
      : 시점A의 정도를 B에서 사용 가능 (일반화)
  • 평균이 일정하지 않을 때
    : 차분(difference)를 통해 정상성 부여

  • 분산이 일정하지 않을 때
    : 변환(transformation) 과정을 거쳐 정상성 부여

3-3. 분석 방법

1. 단순 방법

  • 이동평균법 : MA
    : 일정기간 시계열을 이동하며 평균 계산
    : 추세를 파악하고 다음 기간 예측

  • 지수평활법
    : 모든 시계열 데이터를 사용함
    : 최근 시계열에 더 많은 가중치를 부여
    : 단 기간에 발생하는 불규칙 변동 평활 시에 사용 + 중기 이상의 시계열 데이터

  • 분해법
    : 시계열 자료의 성분 분류대로 분해
    : 체계적성분(추세, 계절, 순환)을 분리해 분석 및 예측

2. 모형기반 방법

  • 자기회귀모형 : AR
    : 현재값이 이전 값에 의존하는 선형회귀 모형
    (p시점 전의 자료가 현재에 영향)
    : 시계열 데이터의 패턴 및 추세 파악
    : 오차항 = 백색잡음
    : AR(p) = 이전 p개 값(차수)에 의존하는 모형
    • AR계수 : 이전값과 현재값의 자기상관계수
  • 자귀회귀이동평균모형 : ARMA
    : 자기회귀 + 이동평균
    : 오차항에 의해서만 시계열 결정
    : ARMA(p,q) = 현재 값이 이전q개의 이전 예측 오차에 의존

  • 자기회귀누적이동평균모형 : ARIMA
    : 비정상성을 가지는 시계열 데이터 분석에 사용
    : AR + MA + 차분 (현재값 - 이전값)
    : ARIMA(p, d, q) = d는 차분(경향성 제거)


4. 베이즈 기법

4-1. Bayesian Inference

  • 통계적 추론, 추론 대상의 사전 확률과 추가 정보를 통해 대상의 사후 확률 추론
  • 조건부 확률
    : P(A|B) = P(B|A) * P(A) / P(B)
  • 회귀분석, Classfication에서 사용

4-2. 회귀분석모델 적용

  • 추정치와 실제의 차이를 최소화하는 것이 목표
  • ∂0, ∂1이 특정 값이 아닌 분포를 갖는다면,
    P(model | data) = P(data | model) * P(model) / P(data)

4-3. Classification 적용

  • 나이브 베이즈 분류
    : 파라미터 추정을 위한 학습 데이터 양 적음 (복잡한 상황에서 좋음)
    : 특성 간 독립을 가정한 확률 분류기
    : 지도학습에서 효율적 훈련

    이벤트 모델

    : 사전확률 / 특성분포에 대한 가정을 기반으로 데이터 설명 및 예측
    : 각 클래스 간 사전확률은 동일
    : Training Set으로부터 각 클래스의 샘플 수 기반한 사전확률 추정
    ex) Class 3개 = 각 Class의 사전확률은 1/3

    종류

    • 가우시안 나이브 베이즈
      : 연속적 값
    • 다항분포 나이브 베이즈
      : 이산적 특징, 특성 벡터가 다항분포에 의해 생성
    • 베르누이 나이브 베이즈
      : 아산적 특징, 특성 벡터가 독립적 이진 변수로 표현

5. 딥러닝 분석

5-1. 개념

  • ANN
    : 시냅스 결합 → 네트워크 → 학습 → 시냅스 결합 세기 변화 → 문제 해결 능력
    : 계산 속도 저하, 초기치의존성, 과적합 우려

  • Deep Learning
    : 여러 개의 비선형 변환 기법 조합을 통해 높은 수준의 추상화 시도
    : ANN 단점 해소

  • Deep Learning 원리
    : 은닉층多 → 여러 단계의 신경망 구성을 통한 정확도 향상

5-2. 분석 알고리즘

  • 심층 신경망 DNN
    : 입력층 ↔ 출력층 사이 여러 개의 은닉층으로 이루어진 인공 신경망
    : 복잡한 비선형관계 모델링

  • 합성곱 신경망 CNN
    : 최소한의 전처리, 다계층 퍼셉트론
    : 하나 이상의 합성곱(Convolution Layer) + ANN + 가중치 + (Pooling Layer)
    : 오차 역전파를 통한 훈련

  • 순환 신경망 RNN
    : 인공 신경망 구성 유닛 사이 연결(directed cycle)
    : 신경망 내부 메모리를 통해 임의 입력 처리
    : Sequence Data Modeling을 통해 지금까지의 Input Data를 요약(기억)

  • 심층 신뢰 신경망 DBN
    : 잠재변수의 다중계층으로 이루어진 심층 신경망
    : 계층 간 연결 OK, 계층 내 연결 X


6. 비정형 데이터 분석

  • 비정형 데이터의 내용 파악과 패턴 발견을 위한 다양한 기법 활용
  • 정련 과정을 통해 정형 데이터로 변환한 후, 데이터 마이닝을 통한 의미있는 정보 발굴

데이터 마이닝

  • 데이터에서 통계적 규칙 및 패턴을 분석해 가치있는 정보 추출

기법

  1. 통계학
    : 탐색적 자료분석, 가설 검정, 다변량분석, 시계열분석, 일반 선형 모형

  2. DB 기술
    : OLAP, SOM, 신경망

적용 분야

  • Classification
  • Clustering
  • Association : 동시 사건 간 관계
  • Sequencing : 특정 기간에 걸쳐 발생한 사건들
  • Forecasting

종류

  • Text Mining
    : Text to Vector = 단어/문장 → 수치적 형태

  • Web Mining

  • Opinion Mining

  • Reality Mining


7. 앙상블 분석

  • 주어진 자료로부터 여러 개의 학습 모형 구축 후 조합하여 하나의 최종 모형 구축
  • 약학습기를 통해 강학습기를 만들어내는 과정

약학습기
: 오차율이 일정 이하인 학습 규칙, 무작위 X

강학습기
: 약학습기로부터 만들어내는 강력한 학습 규칙

  • 장점
  1. 정확성 향상
  2. 과적합 방지
  3. 분산감소
  4. 다양한 모델 적용 가능
  • 단점
  1. 계산 복잡성 증가
  2. 해석 어려움, 설명력 감소
  3. 구현 복잡성 증가

7-1. 종류

  • Voting : 보팅
    : 서로 다른 알고리즘 모델 조합, 결과물에 대해 투표
    : Bagging은 동일 알고리즘 내 다른 표본 데이터 조합

    • Hard voting : 결과물에 대한 최종값 투표
    • Soft voting : 최종 결과에 대한 확률값 합산 후 최종값 도출
  • Boosting : 부스팅
    : 가중치를 활용해 연속적인 약학습기 생성 → 강학습기 도출
    : 순차적 학습으로 가중치 부여 → 오차 보완
    : 병럴처리 어려움, 학습시간 오래 걸림

  • Bagging : 배깅
    : 동일 알고리즘 내 다른 표본 데이터 조합(Bootstrap)
    → 각 모델 학습
    → 결과 집계(Aggregation)
    : Random Forest

    • 범주형 데이터 : 투표 방식
    • 연속형 데이터 : 평균
  • Stacking : 스태킹
    : 개별 모델의 예측결과를 취합해 Meta Model 학습,
    Meta Model이 최종 예측 수행
    : 개별 모델들의 다양성 중요

7-2. 앙상블 최적화

  • 다양한 알고리즘, 모델 사용
  • 개별 모델 다양성
  • 하이퍼 파라미터 최적화
  • 교차 검증을 통한 성능 평가
  • 앙상블 크기 결정(개별 모델 수)
    : 크기 ∝ 성능

8. 비모수 통계

  • 통계학에서 모수에 대한 가정을 전제로 하지 않고
    모집단의 형태에 관계없이 주어진 데이터에서 직접 확률 계산 → 통계학적 검정

    모수 통계
    : 데이터 분포 or 모수(평균, 분산)을 안다고 가정

모수 : Parameter

  • 함수의 특정한 성질을 나타내는 변수
    f(x) = ax + b에서 a, b

8-1. 사용 조건

  1. 모집단의 형상이 정규 분포가 아님
  2. 표본의 크기가 작음
  3. 자료들이 서로 독립적
  4. 변인척도가 명명척도 or 서열척도

8-2. 특징

  • 질적척도 자료 분석 가능
  • 비교적 신속하고 쉽게 통계량 도출
  • 결과 쉬움

8-3. 검정법

  • 데이터가 정규분포를 따르지 않을 때 유용함
  1. 부호검정 : Sign Test
    : 관측치 간 대소 비교에 따른 사실 검정
    : 데이터 순서, 크기를 가정하지 않고, only 부호(>, =, <)만

  2. 윌콕슨 부호순위 검정
    : 대소 부호 + 관측치 간 차이의 크기 순위
    : 동일 개체에 대한 두 관측값
    ex) 약 투여 전/후 체온 변화 비교

  3. 만-휘트니 U 검정
    : 두 집단 간 중심 위치 비교
    : 두 독립 그룹 간의 위치적 차이 비교
    ex) 두 집단 성적 비교

  4. 크루스칼-왈리스 검정
    : 3개 이상 집단의 중앙값 차이
    : 독립 표본 데이터에 대해 그룹 간 순위차이 검정

8-4. 장단점

  • 장점
  1. 유연성, 넓은 적용 범위
  2. 순위 사용을 통한 이상치의 영향 감소
  • 단점
  1. 효율성 저하(낮은 검정력)
profile
Being a Modern Software Engineer

0개의 댓글