지도학습, 비지도학습, 반지도학습 그리고 강화학습

yuns_u·2022년 3월 15일
0

머신러닝의 종류는 지금도 개발되고 있을만큼 굉장히 다양하고 많다.
그들 중 크게 3가지로 분류하자면 다음과 같다.

  1. 지도학습, 비지도학습, 반지도학습, 강화학습
  2. 온라인 학습과 배치학습
  3. 사례 기반 학습과 모델 기반 학습

그리고 위의 세 가지 기법들은 문제에 따라 원하는대로 융합될 수 있다.

지도학습 (Supervised Learning)

지도학습은 알고리듬에 학습시키는 데이터와 그 데이터의 답이라고 할 수 있는 레이블(label)값이 포함되어야 한다.

지도학습방법에는 크게 회귀와 분류가 있다.
회귀(regression)은 예측변수(predictor variable)이라 불리는 특성(feature)를 사용하여 최종적인 결과를 예측하는 것인데 특정한 값을 예측한다면 분류(classification)은 어떤 집단으로 분류할 수 있을지를 예측한다고 볼 수 있다. 일부 회귀는 분류에도 사용할 수 있다. 분류에 널리 쓰이는 회귀로는 로지스틱 회귀(Logistic Regression)이 있으며 클래스에 속할 확률을 구할 수 있다.

지도학습 알고리듬의 예시들은 아래와 같다.

  • k-Nearest Neighbors
  • Linear Regression
  • Logistic Regression
  • SVM(Support Vector Machine)
  • Decision Tree
  • Random Forest
  • Nerual Network

비지도학습 (Unsupervised Learning)

비지도학습은 지도학습에서 필요한 레이블이 필요하지 않은 학습방법이다.
대표적인 비지도학습에는 계층군집(클러스터링, Clustering), 시각화(Visualization)와 차원축소(Demension Reduction), 연관 규칙 학습(Association Rule Learning)이 있다.

  • Clustering : 작은 그룹으로 세분화
    • K-means
    • 계층 군집 분석 (HCA, Hierachical Cluster Analysis)
    • 기댓값 최대화(Expectation Maximization)
  • Visualization & Demension Reduction : 시각화는 레이블이 없는 고차원의 데이터를 넣으면 이차원이나 삼차원의 표현으로 만든다는 뜻, 차원축소는 정보손실을 최소화하면서 데이터를 간소화하는 특성추출과 관련.

    • 주성분 분석(PCA, Principal Component Analysis)
    • Kernel PCA
    • 지역적 선형 임베딩(LLE, Locally-Linear Embedding)
    • t-SNE (t-distributed Stochastic Neighbor Embedding)
  • Association Rule Learning : 대량의 데이터에서 특성 간의 유의미한 관계를 찾음.

    • Apriori
    • Eclat

반지도학습 (Semisupervised Learning)

반지도학습 혹은 준지도학습이라고 불리는 이 학습법은 레이블이 일부만 있어도 데이터를 다룰 수 있다.대부분의 반지도학습 알고리듬은 지도 학습과 비지도 학습의 조합으로 이루어져있다.

구글 포토 호스팅 서비스나 아이폰의 인물 사진처럼 여러 명의 인물 사진을 올리면 자동으로 사람을 인식하여 학습시킨다. 이 사람들이 누구인가하는 정보로 사람의 레이블이 주어지면 편리하게 해당 사람이 들어간 사진을 찾을 수 있다.

강화학습(Reinforcement Learning)

강화학습은 위와는 전혀 다른 종류의 알고리듬이다.
학습하는 시스템을 에이전트(Agent)라고 부르며 환경(Environment)을 관찰하여 행동(Action)을 실행하고 보상(Reward)을 받는다. 시간이 지나면서 가장 큰 보상을 얻기 위해 정책(Policy)이라고 부르는 최상의 전략을 스스로 학습하게 된다. 정책은 주어진 상황에서 에이전트가 어떻게 행동해야하는지를 판단한다.

딥마인드의 알파고가 이러한 강화학습의 예에 들어갈 수 있다. 선택 가능한 행동들 중 보상을 최대화하는 행동 혹은 행동 순서를 선택하는 방법이라고 할 수 있다.

참고자료
AI STICKER
위키피디아_강화학습

profile
💛 공부 블로그 💛

0개의 댓글