머신러닝

KDG·2021년 2월 2일
0

머신러닝

  • 관측값(observations)을 축적하여 데이터(data)를 구축하고, 데이터를 학습하여 규칙(모델)을 생성하는 것

  • 임의의 데이터들(X) 간에 관계를 파악, 파악한 관계도(규칙, 모델)를 가지고 새로운 출력 데이터를 생성하는 과정

1. 데이터 유형

  • 입력 데이터 : 분석의 기반이 되는 데이터로 X로 표현(독립변수_independent, 특징_feature, 설명변수_explanatory)
  • 출력 데이터 : 목적 데이터로 y로 표현(종속변수_dependent, 결과가 분류 되어 있으면 label, class). 정답 데이터(레이블)

2. 예측 문제 방법

  • rule-based = 입력데이터 + 규칙(알고리즘) -> 출력[소량의 데이터(1tb 이하) / 정형 데이터] - 영어 단어 사전
  • data-based = training-based(학습기반) = 입력데이터 + 컴퓨터가 규칙을 스스로 만들게 학습 -> 출력[대량의 데이터/ 비정형 데이터] - 포털사이트 같은 번역 시스템

머신러닝 학습의 유형

데이터 학습 과정에서 정답(레이블) 유무에 따라 분류

지도 학습(Supervised Learning)

  • 정답(레이블)이 있는 데이터로 학습 - 답지가 달린 시험 족보를 주고 학습시킨다는 개념

  • 훈련 데이터, 정답(레이블) -> 알고리즘(학습) -> 규칙(모델) 의 형식으로 규칙(모델)을 만들면 새로운 데이터가 들어와도 학습된 규칙(모델)으로 정답 분류를 자동으로 해준다.

  • 답을 찾기 위해 활용되는 알고리즘

비지도 학습(Unsupervised Learning)

  • 정답(레이블) 없는 데이터로 학습 - 답지가 달리지 않은 데이터를 주고 학습시킨다는 개념

  • 데이터 -> 알고리즘(적용) -> 분류 의 형식으로 데이터를 주면 알고리즘을 통해 각각의 데이터를 분류해준다. 그러나 분류는 해주지만 그룹의 정체는 알려주지 못함

  • 답을 맞히는 목적으로 활용되지 않음 -> 데이터의 특성을 파악할 수 있는 유용한 정보를 주어 사람이 의사결정을 하는데 도움을 줌

강화 학습(Reinforcement Learning)

보상과 패널티를 이용한 학습. 의사결정을 위한 최적의 Action 선택






** 참고

0개의 댓글