[빅데이터분석기사] Part3 - CH 01. 분석 모형 설계

조민수·2025년 8월 15일
0

빅데이터분석기사

목록 보기
8/13

Part 3. 빅데이터 모델링

Chapter 01. 분석 모형 설계


Section 01. 분석절차 수립

1. 분석 모형 선정

  • 데이터 속성 파악/처리 → 분석 모향 선정 및 적합한 분석 기법 선택
  • 데이터가 준비되지 않았다면, 사전 분석 목적을 명확히 해야함

분석 모형 선정 프로세스
1. 문제 요건 정의 : 데이터 선정, 분석 목표 및 조건 정의
2. 데이터 수집, 정리, 도식화
3. 데이터 전처리
4. 분석모형 선정


2. 분석 모형 정의

분석 모형이란?

  • 데이터 특성을 도출해 분석 방향을 정의

분석 모형 종류

  1. 예측 분석 모형
    : 데이터, 상황에 따른 가설에 기반해 미래 현상을 분류/예측
    ex) 날씨, 주가

  2. 현황 진단 모형
    : 과거 데이터를 통해 현재를 객관적으로 진단

  3. 최적화 분석 모형
    : 원하는 결과를 내고자 분석 모델을 최적화하는데 집중

사전 고려 사항

  • 분석이 추진될 수 있는 가능성 확인
  • 관련 과거 분석 사례를 사용할 지, 솔루션을 활용할 지 검토

    분석 방법 구분

    1. Bottom-Up
      : 대량 데이터를 분석해 유의미한 인사이트 도출
    2. Top-Down
      : 문제를 먼저 정의 후 비즈니스 모델, 외부참조 모델, 분석 유스케이스 기반 모델을 통해 문제 발굴

3. 분석 모형 구축 절차

1. 분석 시나리오 작성

  1. 분석 대상 데이터, 범위 정의
  2. 해결 가능 문제, 목표, 구현 모델, 예상 결과 작성

2. 분석 모형 설계

  1. 사전 확인 사항 (필요 데이터 항목, 데이터 단위, 표준화 방법 등)
  2. 분석 모델링 설계 및 검정
  3. 적합한 알고리즘 설계
  4. 분석 모형 개발 테스트 (분석용 데이터를 훈련/테스트로 구분)

각 학습방법에 따른 적합 알고리즘 설계
1. 비지도 학습 : 군집 분석, 연관성 분석, AutoEncoder
2. 지도 학습 : Decision Tree, Random Forest, SVM, 회귀 분석
3. 준지도 학습 : Self-Training, GAN
4. 강화 학습 : Q-Learning, 정책경사(PG)

3. 분석 목적 기반 가설검정 - 통계적 검정

절차
1. 유의수준 결정 & 귀무가설(H0), 대립가설 설정(H1)
: 귀무가설이 옳다는 가정 하에 가설검정 시행

  1. 검정통계량 설정
    : 귀무가설 기각 여부 결정 값

  2. 기각역 설정
    : 검정통계량 in 기각역 then, 귀무가설 기각
    : SUM(기각역) = 유의수준

  3. 검정통계량 계산
    : 표본평균 - 모평균 / 표본표준편차

  4. 가설검정

    • 양측검정 : 대립가설 = '~가 아니다. (크거나 작다)'
    • 단측검정 : 대립가설 = '~보다 작다 or ~보다 크다'

4. 분석모델링 설계 검정 - 추정 방법에 대한 기술검토

  • 모형에 활용될 후보 변수, 후보 분석 모형에 사용할 알고리즘 파악
  • 분석모형 선정 문제
    : 예측 분석, 현황 진단, 예측 최적화 중 1

Section 02. 분석 환경 구축

1. 분석 도구 선정

  • R
    : 오픈소스 분석용 프로그래밍 언어
    : 객체지향, 고속 메모리 처리, 다양한 자료구조, 시각화
    : 대용량 메모리 X, 보안 취약, 웹에서 사용 X

  • Python
    : 플랫폼 독립적, 인터프리터 언어, 동적 데이터타입, 가비지 컬렉션

2. 데이터 분할

  • 전체 데이터를 학습/평가/테스트 데이터로 분류
    1. 학습 데이터 : 분석 모형 구축
    2. 평가 데이터 : 과대/과소적합 판단 및 모형 성능 평가
    3. 테스트 데이터 : 일반화 검증

데이터 분류 비율
1. 학습 : 검증 = 7 : 3
2. 훈련 : 평가 : 검증 = 4 : 3 : 3 (5 : 3 : 2)

OverFitting
: 학습 데이터에만 높은 정확도를 보임, 테스트 데이터에 성능 X
: 데이터 분할, k-fold 교차검증, 정규화 등으로 방지

UnderFitting
: 모형이 너무 단순해 패턴/규칙 학습에 실패
: 학습 데이터에도 부정확한 결과 도출

profile
Being a Modern Software Engineer

0개의 댓글