분석 모형 선정 프로세스
1. 문제 요건 정의 : 데이터 선정, 분석 목표 및 조건 정의
2. 데이터 수집, 정리, 도식화
3. 데이터 전처리
4. 분석모형 선정
예측 분석 모형
: 데이터, 상황에 따른 가설에 기반해 미래 현상을 분류/예측
ex) 날씨, 주가
현황 진단 모형
: 과거 데이터를 통해 현재를 객관적으로 진단
최적화 분석 모형
: 원하는 결과를 내고자 분석 모델을 최적화하는데 집중
분석 방법 구분
- Bottom-Up
: 대량 데이터를 분석해 유의미한 인사이트 도출- Top-Down
: 문제를 먼저 정의 후 비즈니스 모델, 외부참조 모델, 분석 유스케이스 기반 모델을 통해 문제 발굴
각 학습방법에 따른 적합 알고리즘 설계
1. 비지도 학습 : 군집 분석, 연관성 분석, AutoEncoder
2. 지도 학습 : Decision Tree, Random Forest, SVM, 회귀 분석
3. 준지도 학습 : Self-Training, GAN
4. 강화 학습 : Q-Learning, 정책경사(PG
)
절차
1. 유의수준 결정 & 귀무가설(H0
), 대립가설 설정(H1
)
: 귀무가설이 옳다는 가정 하에 가설검정 시행
검정통계량 설정
: 귀무가설 기각 여부 결정 값
기각역 설정
: 검정통계량 in 기각역 then, 귀무가설 기각
: SUM(기각역) = 유의수준
검정통계량 계산
: 표본평균 - 모평균 / 표본표준편차
가설검정
R
: 오픈소스 분석용 프로그래밍 언어
: 객체지향, 고속 메모리 처리, 다양한 자료구조, 시각화
: 대용량 메모리 X, 보안 취약, 웹에서 사용 X
Python
: 플랫폼 독립적, 인터프리터 언어, 동적 데이터타입, 가비지 컬렉션
데이터 분류 비율
1. 학습 : 검증 = 7 : 3
2. 훈련 : 평가 : 검증 = 4 : 3 : 3 (5 : 3 : 2)
OverFitting
: 학습 데이터에만 높은 정확도를 보임, 테스트 데이터에 성능 X
: 데이터 분할,k-fold 교차검증
, 정규화 등으로 방지
UnderFitting
: 모형이 너무 단순해 패턴/규칙 학습에 실패
: 학습 데이터에도 부정확한 결과 도출