① 지도학습(Supervised Learning): 정답을 알려주면서 학습하는 것
② 비지도학습(Unsupervised Learning): 정답 X, 컴퓨터 스스로 데이터의 속성, 특징들을 추출해내는 학습 방법
③ 강화학습(Reinforcement Learning): 정확한 direction은 주지 않지만 컴퓨터가 취한 액션에 대해 보상을 정보로 줌으로써 학습하는 방법
학습데이터로부터 함수를 찾는 방법론
종속변수 Y가 범주형이면 분류(classification), 연속형이면 회귀(regression)
X: 독립변수, 입력변수
Y: 종속변수, 출력변수
성능평가: Training 데이터와 Testing 데이터로 나누어 평가
Hyperparameter Tunning: Training 데이터를 분할하여 Validation 데이터로 성능을 평가하면서 최적의 하이퍼파라미터 찾기
*Lazy Learning Algorithm
이전까지 동작을 하지 않다가 Testing 데이터가 왔을 때 이 데이터를 기준으로 Training 데이터와의 거리를 구하고 최종 결과 출력
K가 클수록 과소적합, K가 작을수록 과대적합
테스트: K가 작아질 수록 Training Error는 0으로 수렴하지만 Validation Error는 줄어들다가 다시 높아진다.
다중선형회귀분석
수치형 설명변수 X와 종속변수 Y간의 관계를 선형으로 가정하고 이를 가장 잘 표현할 수 있는 회귀 계수 추정
범주형 반응 변수: 이진변수, 멀티변수
이진형(0/1)의 형태를 갖는 종속변수(분류문제)에 대해 회귀식의 형태로 모형을 추정하기 위해서
회귀식으로 표현하는 이유: 변수의 통계적 유의성 분석 및 종속변수에 미치는 영향력 등을 알아볼 수 있다.
로지스틱 회귀분석의 특징