서포터 벡터 머신
전통적인 머신러닝 방법론을 다루는 대부분의 책에서 소개하는 알고리즘
- 커널을 이용해 차원을 올리고 초평면으로 구분
- 커널 기법이 매우 중요
로지스틱 회귀
가장 기초적이고 자주 사용하는 모델
병리학적 진단, 은행의 개인 신용평가, 스펨메일 분류 등에 사용
- 선형회귀와는 다르게 분류 문제에 사용
- 이진 분류 외에도 다중 분류로도 사용가능
의사결정 트리
샘플 데이터를 트리 형태의 분류를 진행
잎 노드에는 클래스 내부 노드에는 특징 혹은 속성을 나타냄
- 최적트리를 찾는 것은 NP-hard의 문제 따라서 기보적으로 휴리스틱 함수를 이용해 구함
ex) ID3, C4.5, CART
가지치기
- 사전 가지치기
- 트리가 일정한 깊이에 도달하면 성장을 멈춤
- 노드의 샘플 수가 어떤 임곗값보다 작아지면 성장을 멈춤
- 사후 가지치기
- 하위트리를 잘라내고 잎 노드를 사용해서 대체
- 가지치기 후 정확도가 향상하면 진행, 사전 가지치기에 비해서 시간이 오래걸림