기계학습
- A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P
기계학습 유형
- Supervised Learning
- Unsupervised Learning
- Reinforcement Learning
Supervised Learning
- 출력 변수가 연속형 ➡️ Regression
- 출력 변수가 범주형 ➡️ Classification
- Training 데이터와 Testing 데이터로 나누어 평가
![](https://velog.velcdn.com/images/psy4072/post/793bff67-706d-4040-bafd-5a0e611f317e/image.png)
Bias-Variance Tradeoff
- 모든 모델은 복잡도를 통제할 수 있는 Hyperparameter를 갖고 있음
- 가장 좋은 성능을 낼 수 있는 모델을 학습하기 위해 최적의 Hyperparameter를 결정해야 함
![](https://velog.velcdn.com/images/psy4072/post/d1e673fd-ff01-4769-adf7-44386030d704/image.png)
➡️ underfitting, overfitting 둘 다 성능 안좋음
![](https://velog.velcdn.com/images/psy4072/post/8813bcac-579a-4f71-900b-1c6931fc484a/image.png)
Validation Set
- 좋은 모델을 선택하기 위한 검증 데이터 셋
![](https://velog.velcdn.com/images/psy4072/post/8314e97c-600a-47a6-b237-1fab4d199311/image.png)
Classification 예시
- 범주형 (Categorical) 종속 변수 : Class, Label
- 분류 문제의 예시
- 제품이 불량인지 양품인지 분류
- 고객이 이탈고객인지 잔류고객인지 분류
- 카드 거래가 정상적인 사기인지 분류(Fraud Detection)
- 특정 모델이 모든 경우에 대해 항상 좋은 성능을 낸다고 보장할 수 없음
- 문제 상황에 따라 적합한 모델을 선택해야 함
KNN (K-Nearest Neighbors)
- '두 관측치의 거리가 가까우면 Y도 비슷하다'
- K개의 주변 관측치의 Class에 대한 majority voting
- Distance-based model, instance-based learning
![](https://velog.velcdn.com/images/psy4072/post/31e93d1e-2252-403a-8021-93fc69a1a8fb/image.png)
거리
- 두 관측치 사이의 거리를 측정할 수 있는 방법
- 범주형 변수는 Dummy Variable 으로 변환하여 거리 계산
![](https://velog.velcdn.com/images/psy4072/post/03de6113-583c-490c-953a-fd52c6be9250/image.png)
K의 영향
- K : KNN의 Hyperparameter
- K가 클수록 Underfitting
- K가 작을수록 Overfitting
- Validation dataset을 이용해 최적의 K 결정
![](https://velog.velcdn.com/images/psy4072/post/5f1138fa-0425-4cd0-98f6-bd73feaf217c/image.png)
Logistic Regression
다중선형회귀분석
- 목적 : 수치형 설명변수 X와 종속변수 Y간의 관계를 선형으로 가정하고 이를 가장 잘 표현할 수 있는 회귀 계수를 추정
![](https://velog.velcdn.com/images/psy4072/post/ec4f341f-2e76-45cb-834a-191572ac9c48/image.png)
- Loss = MSE
- Minimize loss
Logistic Regression의 필요성
-
종속 변수의 속성이 이진 변수일 때 (0 or 1)
Q) 확률값을 선형 회귀분석의 종속변수로 사용하는 것이 타당한가?
A) 선형회귀분석의 우변은 범위에 대한 제한이 없기 때문에 우변과 좌변의 범위가 다른 문제점이 발생
-
로지스틱 회귀분석의 목적
: 이진형의 형태를 갖는 종속변수(분류문제)에 대해 회귀식의 형태로 모형을 추정하는 것
-
왜 회귀식으로 표현해야 하는가?
: 회귀식으로 표현될 경우 변수의 통계적 유의성 분석 및 종속변수에 미치는 영향력 등을 알아볼 수 있음
-
로지스틱 회귀분석의 특징
- 이진형 종속변수 y를 그대로 사용하는 것이 아니라 y에 대한 로짓함수(logit function)를 회귀식의 종속변수로 사용
- 로짓함수는 설명변수의 선형결합으로 표현됨
- 로짓함수의 값은 종속변수에 대한 성공확률로 역산될 수 있으며 따라서 이는 분류 문제에 적용 가능함
시그모이드 함수
![](https://velog.velcdn.com/images/psy4072/post/34e56797-583d-4f68-960b-c14bd1d9a34c/image.png)
Cross-Entropy
![](https://velog.velcdn.com/images/psy4072/post/488785eb-6421-4e45-92f5-ab54c1a1e25c/image.png)
![](https://velog.velcdn.com/images/psy4072/post/040d5ebe-6ddf-4dbe-ad96-0f7fc22067f2/image.png)
➡️ Minimizing loss corresponds to maximize the probability of classifying to correct class!
reference : K-MOOC 실습으로 배우는 머신러닝