Machine Learning의 개념
- 기계학습 또는 머신러닝(machine learning)은 인공지능의 한 분야로, 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야를 말한다(위키피디아)
Y=f(X)
Y : 출력변수(종속변수, 반응변수)
f : 모형(머신러닝 알고리즘)
X : 입력변수(독립변수, feature)
- 주어진 데이터를 통해서 입력변수와 출력변수간의 관계를 나타내는 함수 f를 만드는 것
- 주어진 데이터 속에서 데이터의 특징을 찾아내는 함수 f를 만드는 것
Machine Learning으로 할 수 있는 것들
X : 고객들의 개인 정보 및 금융 관련 정보, Y : 대출 연체 여부 → 대출 연체자 예측 탐지 모델, 대출 연체 관련 주요 feature 추출
X : 게임 유저들의 게임 내 활동 정보, Y : 게임 이탈 여부 / 어뷰징 여부 → 이상 탐지 모델
X : 숫자 손 글씨 데이터, Y : 숫자라벨(0~9) → 숫자 이미지 분류 모델
X : 상품 구매 고객 특성 정보 → 군집화를 통한 고객 특성에 따른 segmentation
X : 고객들의 상품 구매 내역 → 매장 내 상품 진열 위치 리뉴얼 을 통한 매출 증대
X : 쇼핑몰 페이지 검색 및 클릭 로그 기록 → 맞춤 상품 추천 시스템
X : SNS 데이터 및 뉴스 데이터 → 소셜 및 사회 이슈 파악
f란 무엇인가(회귀 분석인 경우)
- f를 구하기 위해서 입력 변수와 출력 변수가 필요함
- p개의 입력 변수 X1,X2,...,Xp가있고, 출력변수 Y가 있을 때, X=(X1,X2,...,Xp)라 하면 입력변수와 출력변수의 관계를 나타내는 식은 다음과 같음
Y=f(X)+ε
지도학습과 비지도학습
지도학습(supervised learning)
∗∗Y=f(X)∗∗에 대하여 입력변수 (X)와 출력변수 (Y)의 관계에 대하여 모델링하는 것(Y에 대하여 예측 또는 분류하는 문제)
- 회귀(regression) : 입력변수 X에 대하여 연속형 출력변수 Y를 예측
Y=f(X)
Y : 연속형 변수
f : 회귀모형
X : 연속 / 이산형 변수
- 분류(classification) : 입력변수 X에 대하여 이산형 출력변수 Y(class)를 예측
Y=f(X)
Y : 이산형 변수
f : 분류모형
X : 연속 / 이산형 변수
비지도 학습(unsupervised learning)
- 출력변수(Y)가 존재하지 않고, 입력변수(X)간의 관계에 대해 모델링 하는 것
- 군집 분석 - 유사한 데이터끼리 그룹화
- PCA - 독립변수들의 차원을 축소화
강화학습(reinforcement learning)
- 수 많은 시뮬레이션을 통해 현재의 선택이 먼 미래에 보상이 최대가 되도록 학습
- Agent가 action을 취하고 환경에서 보상을 받고 이 보상이 최대가 되도록 최적의 action을 취하는 방법을 배움
Machine Learning의 종류
선형 회귀분석(Liner Regression)
- 독립변수와 종속변수가 선형적인 관계가 있다라는 가정하에 분석
- 직선을 통해 종속변수를 예측하기 때문에 독립변수의 중요도와 영향력을 파악하기 쉬움
의사결정나무(Decision Tree)
- 독립변수의 조건에 따라 종속변수를 분리(비가 내린다 -> 축구를 하지 않는다)
- 이해하기 쉬우나 overfittion이 잘 일어남
KNN(K-Nearest Neighbor)
- 새로 들어온 데이터의 주변k개의 데이터의 class로 분류하는 기법
Neural Network
- 입력, 은닉, 출력츨으로 구성된 모형으로서 각 층을 연결하는 노드의 가중치를 업데이트하면서 학습
SVM(Support Vector Machine)
- class간의 거리(margin)가 최대가 되도록 decision boundary를 만드는 방법
Ensemble Learning
- 여러 개의 모델(classifier or base lerner)을 결합하여 사용하는 모델
K-means clustering
- Label없이 데이터의 군집으로 k개 생성
머신러닝과 데이터 분석 A-Z 올인원 패키지 Online. 👉 https://bit.ly/3cB3C8y