조사 대상을 특성에 따라 범주로 구분하여 측정된 변수
몇 개인가를 세어 측정하거나 측정 길이, 무게와 같이 양적인 수치로 측정되는 변수
특정 모델링 기법에 의존하지 않고 데이터의 통계적 특성으로부터 변수를 선택하는 기법
순서 | 설명 |
---|---|
1 | 특징 변수의 전체 집합 Set of all Features |
2 | 가장 적합한 하위 집합 선택 Selecting the best subset |
3 | 알고리즘 학습 Learning Algorithm |
4 | 성능 평가 Performance |
변수의 일부만을 모델링에 사용하고 그 결과를 확인하는 작업을 반복하면서 변수를 선택하는 기법
기법 | 설명 |
---|---|
a) 전진 선택법 Forward Selection | - 모형을 가장 많이 향상시키는 변수를 하나씩 점진적으로 추가하는 방법 - 비어있는 상태에서 시작, 변수 추가 시 선택기준이 향상되지 않으면 변수 추가를 중단 |
b) 후진 소거법 Backward Elimination | - 모두 포함된 상태에서 시작, 가장 적게 영향을 주는 변수부터 하나씩 제거 - 더 이상 제가할 변수가 없다고 판단될 때 변수의 제거 중단 |
c) 단계적 방법 Stepwise Method | - 전진 선택과 후진 소거를 함께 사용하는 방법 |
기법 | 설명 |
---|---|
RFE = Recursive Feature Elimination | - 서포트 벡터 머신을 사용하여 재귀적으로 제거하는 방법 - 전진선택, 후진소거, 단계별 선택법을 사용 |
SFS = Sequential Feature Selection | - 그리디 알고리즘으로 빈 부분집합에서 특성 변수를 하나씩 추가하는 기법 |
유전 알고리즘 Genetic Algorithm | - 존 홀랜드에 의하 1975년에 개발된 전역 최적화 기법으로 최적화 문제를 해결하는 기법 - 자연 세계의 진화 과정에 기초한 계산 모델 |
다변량 선택 Univariate Selection | - 하나의 변수 선택법으로 각 피처를 개별적으로 검사하여 피처와 반응변수 간의 관ㄱ계의 강도를 결정하는 기법 - 실행 및 이해가 간단하며 일반적으로 데이터에 대한 이해를 높일 때 사용 |
mRMR = Maximum Redundancy Maximum Relevance | - 특성 변수의 중복성을 최소화 하는 방법 - 종속 변수를 잘 예측하면서 독립 변수들과도 중복성이 적은 변수들을 선택하는 기법 |
모델 자체에 변수 선택이 포함된 기법
기존 변수에 특정 조건 혹은 함수 등을 사용하여 새롭게 정의한 변수
기법 | 설명 |
---|---|
(1) 랜덤 과소 표집 Random Under-Sampling | 무작위로 다수 클래스의 데이터의 일부만 선택하는 방법 |
(2) ENN = Edited Nearest Neighbor | 소수 클래스 주위에 인접한 다수 클래스 데이터를 제거하여 데이터 비율을 맞추는 방법 |
(3) 토맥 링크 방법 Tomek Link Method | - 토멕 링크 Tomek Link = 클래스를 구분하는 경계선 가까이에 존재하는 데이터 - 토멕 링크 방법은 다수 클래스에 속한 토멕 링크를 제거하는 방법 |
(4) CNN = Condensed Nearest Neighbor | 다수 클래스에 밀집된 데이터가 없을 때까지 데이터를 제거하여 데이터 분포에서 대표적 데이텀만 남도록 하는 방법 |
(5) OSS = One Sided Selection | - 토멕 링크 방법과 CNN 기법의 장점을 섞은 방법 - 다수 클래스의 데이터를 토멕 링크 방법으로 제거한 후 CNN을 이용하여 밀집된 데이터를 제거한다. |
기법 | 설명 |
---|---|
(1) 랜덤 과대 표집 Random Over-Sampling | 무작위로 소수 클래스의 데이터를 복제하여 데이터릐 비율을 맞추는 방식 |
(2) SMOTE = Synthetic Minority Over-samppling TEchnique | SMOTE 는 소수 클래스에서 중심이 되는 데이터와 주변 데이터 사이에 가상의 직선을 만든 후 그 위에 데이터를 추가하는 방법 |
(3) Borderline-SMOTE | SMOTE에서 다른 클래스의 데이터 영역까지 데이터 생성 분포를 확장한 방법 |
(4) ADASYM = ADAptive SYNthetic Sampling Approach | 모든 소스 클래스에서 다수 클래스의 관칙 비율을 계산하여 SMOTE를 적용하는 방법 |