머신러닝 개념을 잡기위해 저번 포스팅때는 회귀에 대해 공부해보았다. 이번 포스팅에서는 두번째로 기본이 되는 분류에대해 포스팅 해보겠다.
분류는 말그대로 특정한 값으로 분류하는것이다. 예시로 특정 요인에 따라 어떤 행동을 했는지 / 안했는지를 분류하는 상황등이 있고 분류값이 2개면 2진분류 , 분류가 여러개이면 다중분류라고 한다.
이진 분류를 하는경우 대표적으로 로지스틱 회귀가 있다. 출력값은 시그모이드 함수를 통과시켜지고 0과 1 사이의 값을 갖도록 만들어 이진 분류에 적합하게 조정된다. 로지스틱 회귀는 새로운 입력에 대한 예측을 수행하는데, 예측 확률이 0.5보다 크면 한 클래스로, 그렇지 않으면 다른 클래스로 예측하게된다.
다중 분류인 경우는 소프트맥스 함수를 통해 입력값을 각 클래스에 대한 확률 값으로 변환한다.
우도 확률
모델 파라미터 값을 잘 모르지만 안다고 가정했을 경우, 주어진 데이터의 분포
우도 확률은 모델의 파라미터 (w)에 대한 함수로 데이터의 분포를 표현
최대 우도 추정법 (Maximum Likelihood Estimation, MLE)
시그모이드 , 소프트 맥스 설명
over-fitting이슈를 해결하기 위해 교차 검증 (cross validation)을 통해 optimal subtree 찾거나 , RSS 값이 일정 threshold 만큼 떨어지지 않으면 tree 성장을 멈춰서 해결
머신러닝 분류 관련 강의를 들으면서 깊은 수학적인 내용이 아닌 , 가벼운 이론 위주로 포스팅 해보았다. 메타코드 덕분에 이전에 학습했던 내용들을 오랜만에 정리할 수 있었고 앞으로도 끊임없이 공부해 나갈것이다.
#메타코드 #메타코드M #머신러닝 #데이터분석 #분류 #기초 #이론 #데이터