Summary
Introduction
Code, Conept & Explanation
margin 이 가장 적도록 함
하드 마진
소프트 마진
규제 파라미터 C = 1 / ㅎ
정규화를 해야 합니다.
정규화는 모든 값을 0 에서 1 사이로 맞춰줍니다.
커널 트릭으로 구분한다
Min-Max 정규화
최대값에서 최소값을 빼다보니 항상 양수
Max ABS 정규화
절대값을 통한 정규화
tanh 정규화
결과값의 범위를 한정
y값은 -1 에서 1 사이 값으로 매핑
Cost-sensitive Learning
A를 B로 예측할 때 위험과
B를 A로 예측할 때 위험이 다른 경우
고위험군을 저위험군으로 판다하는 경우, 비용 5
저위험군을 고위험군으로 판단하는 경우, 비용 1
예시에서는 1이면 저위험, 2이면 고위험으로 구분
대부분은 명목 데이터
성적 데이터 같은 경우, indicator 로 변경
Garbage in Garbage out
쓰레기 데이터가 많으면 쓰레기가 나옵니다.
독립성
독립성이 높다 : 종속변수와 독립변수가 너무 독립적
종속성이 높다 : 독립변수로 종속변수를 예측하기 용이
전체를 감싸고 있음
몇 번이나 구획을 할지
Train, Validation, Test
교차 검증
데이터 세트를 여러 부분으로 나누고 각 부분을 학습과 검증 용도로 번갈아 사용
Azure 는 검증 평가시 10번 진행
K-Fold 교차 검증만으로 실험 끝냈다고 할 수도 있습니다.
FILTER
garbage의 기준은 데이터의 질 자체 뿐만 아니라
종속변수와 관련이 있다, 없다도 중요합니다.
뻥튀기처럼 소수의 데이터를 증가하여 클래스 간 불균형을 조정
구현이 쉽지만 복제된 샘플에 과적합될 수 있습니다.
Synthetic Minority Over-sampling Technique
소수의 데이터를 합성
학습용 데이터
2개 점을 연결하여 사이에서 결정
정상치 + 정상치
정상치 + 이상치
이상치 + 이상치
이상치 값이 반복될 수 있습니다.
Adaptive Synthetic Sampling Approach for Imbalanced Learning
소수 클래스 샘플의 난이도에 따라 가중치를 다르게 부여
경계에 근접한 다수 클래스에 더 많이 생성
컬럼이 너무 많으면 차원의 저주
가능하면 줄여라
Challenges & Solutions
Results
What I Learned & Insights
Conclusion