KMOOC 실습으로 배우는 머신러닝 강의 정리 내용
1 -1
평가모델(오차 -> 작을수록 좋음)
1 -2
- Linear Regression
1. 기본식 y = f(x)(=> a + bx) (베타 : 회귀계수)
2. Loss 함수 정의(= MSE)
3. 최적화(Loss function(오차)를 가장 최소화로 해주는 베타를 찾음)
-> 미분해서 0이 되는 값이 최솟값
Machine Learning => optimization(최적화)
1 -3
2 -1
- Dataset : 정의된 구조로 모아져 있는 데이터 집합
- Data Point(Observation) : 데이터 세트에 속해 있는 하나의 관측치
- Feature(Variable, Attribute) : 데이터를 구성하는 하나의 특성
-> 숫자형, 범주형, 시간, 텍스트, 이진형
- Lable(Target, Response) : 입력 변수들에 의해 예측, 분류되는 출력 변수
- Dataset Exploration (=> EDA)
- 변수 별 기본적인 특성들을 탐색하고 분포적인 특징 이해
- Missing Value
- Data Types and Conversion
- 여러 종류의 데이터 타입(숫자, 텍스트, 범주, 시간 등)이 있을 수 있고, 이를 분석이 가능한 형태로 변환 후 사용
- Normalization
- 변수들의 단위가 크게 다른 경우 모델 학습에 영향을 주는 경우가 있어 정규화 함.
- Outliers
- 관측치 중에서 다른 관측치와 크게 차이가 나는 관측치들이 있고 이러한 관측치들은 모델링 전 처리가 필요함
- Feature Selection
- 변수중에서 모델링을 할 때 중요한 변수가 있고 그렇지 않은 변수가 있어 선택이 필요한 경우가 있음.
- Data Sampling
- 모델을 검증하거나 이상 관측치를 찾는 모델링을 할 때 또는 앙상블 모델링을 할 때 가지고 있는 데이터를 일부분 추출하는 과정을 거치기도 함.
- Modeling 검증
-> Underfit
-> Optimal => Validation error가 가장 낮을 때
-> Overfit
3 -1
머신러닝 분류 모델링
- Supervised Learning : 학습데이터로부터 함수 F를 찾는 방법론
- Classification (종속변수 y가 범주형)
- Regression (종속변수 y가 연속형)
3 -2
KNN (K-Nearest Neighbors)
: 두 관측치의 거리가 가까우면 y도 비슷
aka. Lazy Learning Algorithm
- K : KNN의 하이퍼파라미터
- K가 클수록 Underfitting/ K가 작을수록 Overfitting
- Validation dataset을 이용해 최적의 K 결정
3 -3
Logistic Regression
- 다중선형회귀분석 (ex. Linear Regression -> y:연속형)
목적
- 수치형 설명 변수 x와 종속변수 y간의 관계를 선형으로 가정하고,
이를 가장 잘 표현할 수 있는 회귀 계수를 추정
필요성
- 범주형 반응변수
-> 이진변수 (반응변수 값 0 or 1)
💡질문💡 확률값을 선형 회귀분석의 종속변수로 사용하는 것이 타당한가?
📖답변📖 선형회귀분석의 우변은 범위에 대한 제한이 없기 때문에 우변과 좌변의 범위가 다른 문제점이 발생
-> 멀티변수 (반응변수 값 1 or 2 or 3 이상)
=> 일반 회귀분석과는 다른 방식으로 접근
✔️ 로지스틱 회귀분석의 목적
-> 이진형(0/1)의 형태를 갖는 종속변수(분류문제)에 대해 회귀식의 형태로 모형을 추정하는 것
✔️ 왜 회귀식으로 표현해야 하나?
-> 회귀식으로 표현될 경우 변수의 통계적 유의성 분석 및 종속변수에 미치는 영향력 등을 알아볼 수 있음.
✔️ 로지스틱 회귀분석의 특징
-> 이진형 종속변수 y를 그대로 사용하는 것이 아니라 y에 대한 로짓함수(logit function)를 회귀식의 종속변수로 사용
-> 로짓함수는 설명변수의 선형결합으로 표현
-> 로짓함수의 값은 종속변수에 대한 성공확률로 역산될 수 있으며, 따라서 이는 분류 문제에 적용 가능