전진선택법 : NM에서 시작, 중요 변수를 차례로 모형에 포함(한 번 추가된 변수는 제거 X)
=> 부분 F검정
을 통한 유의성 검증
후진선택법 : FM에서 시작, 설명력이 낮은 변수 순으로 제거
=> 부분 F검정
을 통한 유의성 검증
단계적선택법 : 전진선택법을 통한 유의미 변수 포함 → 포함되지 않은 나머지 변수에 후진선택법 적용해 제거
차원축소의 필요성
1. 복잡도 축소 : 동일 품질 보장 하에, 효율성 향상
2. 과적합 방지 : 차원 증가 → 과적합 가능성 ↑ → 분석 모형에 대한 신뢰도↓
3. 해석력 확보 : 차원의 수 ∝ 분석 모델 내부 구조의 복잡성
4. 차원의 저주 : 학습 데이터 수 < 차원 수 => 성능 감소
Factor Analysis
변수들 간의 상관관계 분석을 통해 공통 차원 축약, 통계 분석 과정 수행
주성분 분석, 공통요인 분석, 특이값 분해(SVD
)행렬, NMF
등
목적
: 변수 축소 및 제거
: 관련 변수들의 군집화를 통한 변수 특성 파악(상호 독립성 파악 용이)
: 변수의 독립성 여부 파악을 통한 타당성 평가
: 요인 점수를 이용한 신규 변수 생성(파생변수)
특징
: 기술 통계에 의한 방법
: 독립/종속 변수 개념이 없다.
PCA
데이터의 특성을 설명 가능한 하나 이상의 특징 도출
고차원 공간 데이터 → 직교 변환 → 저차원
: 각 고차원 데이터 간 상호 연관성 O
원 데이터의 중요 정보를 최대한 보존하면서 차원 축소를 목표
PC1
: 첫번째 주성분
: 데이터 분산을 가장 많이 설명하는 방향
PC2
: 두번째 주성분
: PC1
과 직교 & 남은 분산을 가장 많이 설명하는 방향
SVD
m x n
행렬 A 를 3개의 행렬 곱으로 분해
U
: m x m
크기의 직교 행렬Σ
: m x n
크기의 대각 행렬Vt
: n x n
크기의 직교 행렬, V
의 전치 행렬데이터의 주요 정보가 큰 특이값(k
)에 집중
적당한 특이값 k
를 통해 비슷한 정보력의 차원으로 축소
NMF
음수 미포함 행렬 V
를 음수 미포함 2개 행렬(W, H
)의 곱으로
데이터가 0 이상 값으로 구성되어있을 때, 데이터의 숨겨진 구조/패턴 도출
W, H
의 차원은 V
보다 작다.
Data Mart
: 기존 변수나 데이터로부터 새로운 규칙, 계산을 적용해 만든 변수
: 모델의 성능 향상 및 데이터의 숨겨진 의미 파악에 사용
: 주 구매매장
, 주 활동지역
등
: 매우 주관적, 논리적 타당성 필요
국어, 수학 점수 데이터를 통한 종합적 학업 능력 평가 시,
전체 과목 평균 = 파생 변수
Interaction
한 변수의 효과가 다른 변수의 값에 따라 달라지는 현상
광고비
와할인율
두 변수의 상호작용 ▶매출
이라는 결과 변수에 영향
교호작용을 통한 파생변수 생성
: 2개 이상 변수가 서로에게 영향을 미쳐 예측 변수에 미치는 효과가 달라질 떄, 이를 확인하기 위해 새로운 변수를 만드는 기법
: 독립 변수 간의 상호작용을 모델에 반영
※ 단, 종속 변수와 독립 변수 간 교호작용을 사용하면 안됨
: 수집된 정보를 분석에 맞게 종합
: Data Mart
에서 가장 기본적인 변수
: 다른 분석 모델에서 공통으로 사용 가능한 변수
: 매장이용 횟수
, 기간별 구매금액
등
결측치
, 이상치
처리에 유의순위
, 비율 %
)연속형 데이터를 상대적 특성이 반영된 데이터로 변환
Min-Max
정규화Z-Score
X
에 log
를 씌워(ln(X)
) 분포가 정규 분포에 가까워짐X
의 역수(1/X
)를 분석에 사용해 선형적 특성 향상X
에 대한 지수 사용(X^n
)해 선형적 특성 향상X
에 대해 제곱근(√X
) 사용X^2
단일 집단의 정규성 검정 방법
1.샤피로 테스트
2.Q-Q Plot
λ
(변환 형태 결정)에 따라 형태가 상이한 거듭제곱 변환High-Imbalanced Data
의 경우,Weight Balancing
범주형 데이터 → 숫자
의 변환 과정1
, 아니면 0