머신러닝이란 사람과 같이 컴퓨터가 데이터를 학습하게 하고 이를 통해 유의미한 결과를 도출해내는 과정이라고 할 수 있을 것 같다. 딥러닝과 머신러닝을 혼동하는 경우가 종종 있는데,쉽게 생각해서 머신러닝 속에 딥러닝이 포함되어 있다고 생각면 될 것 같다. 머신러닝이 좀더 진화하고 발전하여 딥러닝이 나오게 된것이다. 우선 이 포스트에서는 머신러닝에 대한 내용들을 다룰 예정이다. 머신러닝은 크게,
으로 나뉘어 질 수 있을 거 같다.
지도 학습을 한줄로 요약하자면 정답이 있는 데이터를 학습시키는 것이라고 할 수 있을 것이다. 데이터라 함은 두가지의 형태가 있는데, categorical(범주형)과 continuous(수치형)이 있다. 범주형 데이터를 다루는 지도학습을 분류(classification) 라고 칭하고, 수치형 데이터를 다루는 지도 학습은 회귀(regression) 이라고 한다.
분류 알고리즘에는 우선 로지스틱 회귀 모델이 있다. 로지스틱 회귀 모델은 독립 변수와 종속 변수의 관계를 이용하여 구축되며, 아주 강력하다.
결정 트리 또한 널리 쓰이는 지도학습 중 하나이다. 우선 매우 직관적이다. 쉽게 말해서 인간이 질문을 던져서 맞고 틀리는 것에 따라 우리가 생각하고 있는 대상을 좁혀나가는 개념과 비슷하다고 할 수 있다. 메커니즘을 살펴보면 데이터를 2개 혹은 그이상의 부분집합으로 분할한다. 트리는 이진분할을 하면서 가지를 뻗어나가는데, 메커니즘을 살펴보면 데이터를 2개 혹은 그이상의 부분집합으로 분할하고(균일해지도록) 비슷한 Y변수 범주의 관측치들을 모으게 된다. 이를 통해 비슷한 Y변수 수치를 가진 관측치끼리 모음으로써 예측을 하게 되는 것이다. 의사결정 나무의 비용함수는 gini index, cross entropy, missclassification rate 이 있다.