머신러닝의 종류는 지금도 개발되고 있을만큼 굉장히 다양하고 많다.
그들 중 크게 3가지로 분류하자면 다음과 같다.
그리고 위의 세 가지 기법들은 문제에 따라 원하는대로 융합될 수 있다.
지도학습은 알고리듬에 학습시키는 데이터와 그 데이터의 답이라고 할 수 있는 레이블(label)값이 포함되어야 한다.
지도학습방법에는 크게 회귀와 분류가 있다.
회귀(regression)은 예측변수(predictor variable)이라 불리는 특성(feature)를 사용하여 최종적인 결과를 예측하는 것인데 특정한 값을 예측한다면 분류(classification)은 어떤 집단으로 분류할 수 있을지를 예측한다고 볼 수 있다. 일부 회귀는 분류에도 사용할 수 있다. 분류에 널리 쓰이는 회귀로는 로지스틱 회귀(Logistic Regression)이 있으며 클래스에 속할 확률을 구할 수 있다.
지도학습 알고리듬의 예시들은 아래와 같다.
비지도학습은 지도학습에서 필요한 레이블이 필요하지 않은 학습방법이다.
대표적인 비지도학습에는 계층군집(클러스터링, Clustering), 시각화(Visualization)와 차원축소(Demension Reduction), 연관 규칙 학습(Association Rule Learning)이 있다.
Visualization & Demension Reduction : 시각화는 레이블이 없는 고차원의 데이터를 넣으면 이차원이나 삼차원의 표현으로 만든다는 뜻, 차원축소는 정보손실을 최소화하면서 데이터를 간소화하는 특성추출과 관련.
Association Rule Learning : 대량의 데이터에서 특성 간의 유의미한 관계를 찾음.
반지도학습 혹은 준지도학습이라고 불리는 이 학습법은 레이블이 일부만 있어도 데이터를 다룰 수 있다.대부분의 반지도학습 알고리듬은 지도 학습과 비지도 학습의 조합으로 이루어져있다.
구글 포토 호스팅 서비스나 아이폰의 인물 사진처럼 여러 명의 인물 사진을 올리면 자동으로 사람을 인식하여 학습시킨다. 이 사람들이 누구인가하는 정보로 사람의 레이블이 주어지면 편리하게 해당 사람이 들어간 사진을 찾을 수 있다.
강화학습은 위와는 전혀 다른 종류의 알고리듬이다.
학습하는 시스템을 에이전트(Agent)라고 부르며 환경(Environment)을 관찰하여 행동(Action)을 실행하고 보상(Reward)을 받는다. 시간이 지나면서 가장 큰 보상을 얻기 위해 정책(Policy)이라고 부르는 최상의 전략을 스스로 학습하게 된다. 정책은 주어진 상황에서 에이전트가 어떻게 행동해야하는지를 판단한다.
딥마인드의 알파고가 이러한 강화학습의 예에 들어갈 수 있다. 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이라고 할 수 있다.
참고자료
AI STICKER
위키피디아_강화학습