23일차 강의

Luis_J·2024년 10월 11일

MS_AI_School 5기

목록 보기

23/70

Summary
Introduction
Code, Conept & Explanation

SVM

margin 이 가장 적도록 함

하드 마진
소프트 마진

규제 파라미터 C = 1 / ㅎ

정규화를 해야 합니다.
정규화는 모든 값을 0 에서 1 사이로 맞춰줍니다.

커널 트릭으로 구분한다

Min-Max 정규화
최대값에서 최소값을 빼다보니 항상 양수

Max ABS 정규화
절대값을 통한 정규화

tanh 정규화
결과값의 범위를 한정
y값은 -1 에서 1 사이 값으로 매핑

비용 민감 학습

Cost-sensitive Learning

A를 B로 예측할 때 위험과
B를 A로 예측할 때 위험이 다른 경우

고위험군을 저위험군으로 판다하는 경우, 비용 5
저위험군을 고위험군으로 판단하는 경우, 비용 1

예시에서는 1이면 저위험, 2이면 고위험으로 구분

대부분은 명목 데이터
성적 데이터 같은 경우, indicator 로 변경

카이제곱

Garbage in Garbage out
쓰레기 데이터가 많으면 쓰레기가 나옵니다.

독립성
독립성이 높다 : 종속변수와 독립변수가 너무 독립적
종속성이 높다 : 독립변수로 종속변수를 예측하기 용이

Wrapper Methods

전체를 감싸고 있음
몇 번이나 구획을 할지

Embedded Method

교차 검증

머신러닝에서 데이터 세트의 구분

Train, Validation, Test

교차 검증
데이터 세트를 여러 부분으로 나누고 각 부분을 학습과 검증 용도로 번갈아 사용

Azure 는 검증 평가시 10번 진행

K-Fold 교차 검증만으로 실험 끝냈다고 할 수도 있습니다.

FILTER
garbage의 기준은 데이터의 질 자체 뿐만 아니라
종속변수와 관련이 있다, 없다도 중요합니다.

로지스틱 회귀 알고리즘

층화 추출

오버샘플링

뻥튀기처럼 소수의 데이터를 증가하여 클래스 간 불균형을 조정

랜덤 샘플링

구현이 쉽지만 복제된 샘플에 과적합될 수 있습니다.

SMOTE

Synthetic Minority Over-sampling Technique
소수의 데이터를 합성
학습용 데이터

2개 점을 연결하여 사이에서 결정
정상치 + 정상치
정상치 + 이상치
이상치 + 이상치

이상치 값이 반복될 수 있습니다.

ADASYN

Adaptive Synthetic Sampling Approach for Imbalanced Learning

소수 클래스 샘플의 난이도에 따라 가중치를 다르게 부여
경계에 근접한 다수 클래스에 더 많이 생성

컬럼이 너무 많으면 차원의 저주
가능하면 줄여라

Challenges & Solutions
Results
What I Learned & Insights
Conclusion

Luis_J

New life & History

이전 포스트

22일차 강의 : 통계

다음 포스트