작년 12월에서 코로나 때문에 취소되어 4월까지 밀린 유일한 시험(이지 않을까?)을 준비하며 공부하는 글이다. 이번 시험이 첫번째 시험이기 때문에 시중에 기출은 없고 문제집만 많이 나와있다. 나는 작년 11월에 구매한, 뒷부분이 깨끗한 문제집으로 벼락치기중이다. 작년엔 한 달 정도 공부하다가 날벼락 같은 취소 공지를 받고, 4개월이나 밀렸으니 공부는 충분하겠군이라고 생각했다. 그러나 이제야 시작하는 나같은 수험생들이 여러명이겠지 하는 위안을 얻으며.. 정리해본다..📝
다음은 언젠가 한번쯤은 공부하며 머리 한켠에 있는데 (면접 담당자를 앞에 두고) 설명 할 수 있나? 했는데 입이 안떨어져서 정리하는 개념들이다.
지도 학습에는 2가지 방식이 있습니다. 분류와 회귀
output, 학습의 목적, 평가 방법(evaluation)에 따라 둘은 다른데
예측하고 싶은 종속 변수가 숫자일 때 회귀를 사용합니다.
- 회귀 분석의 목적은 가장 데이터를 잘 표현하는 회귀식(the best line)을 찾는 것
예측하고 싶은 종속 변수가 범주형/이산형일때 (discrete) 분류를 사용합니다.
- 분류 분석의 목적은 데이터의 결정 경계decision boundary를 찾는 것, 즉 데이터가 나뉘는 지점을 찾는 것
근데 로지스틱 회귀 분석은 선형 회귀와 달리 종속변수가 서열형, 범주형, 이산형일때 사용됨 (분류기법임)
파란 부분이 Train data, 흰색 격자가 학습을 거치며 (맞닿는 부분을 이용해서) train data를 설명할 수 있을 모양을 갖추게됨.. (이론적으로..)
데이터들이 차원 축소되면서 동시에 클러스터링 되고 있다..