[머신러닝 인강] 5. Machine Learning의 개념과 종류(1)

Uno·2021년 4월 24일
1

Machine Learning의 개념

  • 기계학습 또는 머신러닝(machine learning)은 인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다(위키피디아)

Y=f(X)Y = f(X)

YY : 출력변수(종속변수, 반응변수)

ff : 모형(머신러닝 알고리즘)

XX : 입력변수(독립변수, feature)

  • 주어진 데이터를 통해서 입력변수와 출력변수간의 관계를 나타내는 함수 ff를 만드는 것
  • 주어진 데이터 속에서 데이터의 특징을 찾아내는 함수 ff를 만드는 것

Machine Learning으로 할 수 있는 것들

XX : 고객들의 개인 정보 및 금융 관련 정보, YY : 대출 연체 여부 → 대출 연체자 예측 탐지 모델, 대출 연체 관련 주요 feature 추출

XX : 게임 유저들의 게임 내 활동 정보, YY : 게임 이탈 여부 / 어뷰징 여부 → 이상 탐지 모델

XX : 숫자 손 글씨 데이터, YY : 숫자라벨(0~9) → 숫자 이미지 분류 모델

XX : 상품 구매 고객 특성 정보 → 군집화를 통한 고객 특성에 따른 segmentation

XX : 고객들의 상품 구매 내역 → 매장 내 상품 진열 위치 리뉴얼 을 통한 매출 증대

XX : 쇼핑몰 페이지 검색 및 클릭 로그 기록 → 맞춤 상품 추천 시스템

XX : SNS 데이터 및 뉴스 데이터 → 소셜 및 사회 이슈 파악

ff란 무엇인가(회귀 분석인 경우)

  • ff를 구하기 위해서 입력 변수와 출력 변수가 필요함
  • pp개의 입력 변수 X1,X2,...,XpX_1,X_2,...,X_p가있고, 출력변수 Y가 있을 때, X=(X1,X2,...,Xp)X = (X_1,X_2,...,X_p)라 하면 입력변수와 출력변수의 관계를 나타내는 식은 다음과 같음

Y=f(X)+εY = f(X) + ε

지도학습과 비지도학습

지도학습(supervised learning)

Y=f(X)**Y = f(X)**에 대하여 입력변수 (X)(X)와 출력변수 (Y)(Y)의 관계에 대하여 모델링하는 것(Y에 대하여 예측 또는 분류하는 문제)

  • 회귀(regression) : 입력변수 XX에 대하여 연속형 출력변수 YY를 예측

Y=f(X)Y = f(X)

YY : 연속형 변수

ff : 회귀모형

XX : 연속 / 이산형 변수

  • 분류(classification) : 입력변수 XX에 대하여 이산형 출력변수 YY(class)를 예측

Y=f(X)Y = f(X)

YY : 이산형 변수

ff : 분류모형

XX : 연속 / 이산형 변수

비지도 학습(unsupervised learning)

  • 출력변수(Y)(Y)가 존재하지 않고, 입력변수(X)(X)간의 관계에 대해 모델링 하는 것
  • 군집 분석 - 유사한 데이터끼리 그룹화
  • PCA - 독립변수들의 차원을 축소화

강화학습(reinforcement learning)

  • 수 많은 시뮬레이션을 통해 현재의 선택이 먼 미래에 보상이 최대가 되도록 학습
  • Agent가 action을 취하고 환경에서 보상을 받고 이 보상이 최대가 되도록 최적의 action을 취하는 방법을 배움

Machine Learning의 종류

선형 회귀분석(Liner Regression)

  • 독립변수와 종속변수가 선형적인 관계가 있다라는 가정하에 분석
  • 직선을 통해 종속변수를 예측하기 때문에 독립변수의 중요도와 영향력을 파악하기 쉬움

의사결정나무(Decision Tree)

  • 독립변수의 조건에 따라 종속변수를 분리(비가 내린다 -> 축구를 하지 않는다)
  • 이해하기 쉬우나 overfittion이 잘 일어남

KNN(K-Nearest Neighbor)

  • 새로 들어온 데이터의 주변k개의 데이터의 class로 분류하는 기법

Neural Network

  • 입력, 은닉, 출력츨으로 구성된 모형으로서 각 층을 연결하는 노드의 가중치를 업데이트하면서 학습

SVM(Support Vector Machine)

  • class간의 거리(margin)가 최대가 되도록 decision boundary를 만드는 방법

Ensemble Learning

  • 여러 개의 모델(classifier or base lerner)을 결합하여 사용하는 모델

K-means clustering

  • Label없이 데이터의 군집으로 k개 생성

머신러닝과 데이터 분석 A-Z 올인원 패키지 Online. 👉 https://bit.ly/3cB3C8y

0개의 댓글