지도 학습(supervised learning), 비지도 학습(unsupervised learning),
준지도 학습(semisupervised learning), 강화 학습(reinforcement learning)
지도 학습
k-최근접 이웃(k-Nearest Neighbors)
, 선형 회귀
, 로지스틱 회귀
, SVM
, 결정 트리
, 랜덤 포레스트(random forests)
, 신경망(neural network)
등 비지도 학습
비지도 학습
중, 중요한 학습이 이상치 탐지이다. 예를 들어, 부정 거래를 막기 위해 이상한 신용카드 거래를 감지하고, 제조 결함을 잡아내고, 학습 알고리즘에 주입하기 전에 데이터셋에서 이상한 값을 자동으로 제거하는 것 등이다. 그렇게 된다면, 시스템은 정상 샘플로 훈련되고, 새로운 샘플이 정상 데이터인지 혹은 이상치인지 판단한다. 군집
: k-means, 계층군집(hierarchical clustering, HCA), 기댓값 최대화(Expectation Maximization)시각화와 차원축소
: dPCA, 커널PCA, 지역적 선형 임베딩(LLE), t-SNE연관 규칙 학습
: 어프라이어리(apriori), 이클렛(eclat)준지도 학습
지도 학습
과 비지도 학습
의 조합으로 이루어져 있다.심층 신뢰 신경망(DBN)
은 여러 겹으로 쌓은 제한된 볼츠만 머신(RBM)을 순차적으로 훈련하고, 전체 시스템이 지도 학습 방식으로 세밀하게 조정된다. 강화 학습
알파고
배치 학습(batch learning)과 온라인 학습(online learning)
배치 학습
온라인 학습
데이터를 순차적으로 한 개씩 또는 미니배치라고 부르는 작은 묶음 단위로 주입하여 시스템을 훈련시킨다.
매 학습 단계가 빠르고 비용이 적게 들어 시스템은 데이터가 도착하는 대로 즉시 학습할 수 있다.
빠른 처리가 필요한(주식 가격 등) 경우 적합하다. 혹은 컴퓨팅 자원이 제한된 경우에도 좋다.
점진적 학습(incremental learning)이라고 한다.
학습률(learning rate)이 중요한 파라미터이다.
- 학습률이 높으면 데이터에 빠르게 적응하지만 예전 데이터를 금방 잊어버린다.
- 학습률이 낮으면 시스템의 관성이 더 커져서 더 느리게 학습된다. 하지만 새로운 데이터에 있는 데이터에 있는 잡음이나 대표성이 없는 데이터 포인트에 덜 민감해진다.
사례 기반 학습(instance-based learning)과 모델 기반 학습(model-based learning)
사례 기반 학습
모델 기반 학습
샘플들의 모델을 만들어 예측에 사용한다.
모델이 얼마나 좋은지 측정하는 효용 함수(utility function)와 얼마나 나쁜지 측정하는 비용 함수(cost function)을 가지고 학습한다.
머신러인의 주요 도전 과제