(머신러닝)머신러닝 알고리즘 기초

샘2·2022년 10월 22일

머신러닝

선형 회귀(linear Regression)

구분 - 지도학습
유형 - 회귀
적합한 데이터 유형 - 종속변수와 독립변수가 선형 관계에 있는 데이터

특징

복잡한 알고리즘에 비해서는 예측력이 떨어지지만 데이터 특성이 복잡하지 않을 때는 쉽고 빠른 예측이 가능, 다른 모델과 성능 비교를 위해 베이스라인으로 사용

로지스틱 회귀(logistic Regression)

구분 - 지도학습
유형 - 분류
적합한 데이터 유형 - 종속 변수와 독립변수가 선형 관계에 있는 데이터

특징

선형 회귀 분석과 마찬가지로 기본적인 알고리즘

실제 이진분류가 필요한 상황이 많기 때문에 두가지 범주를 구분하는 간단한 예측에 유용하며 딥러닝에서도 적용되는 기본적인 지식

k-최근접 이웃(KNN)

구분 - 지도학습
유형 - 회귀 / 분류
적합한 데이터 유형 - 아웃라이어가 적은 데이터

특징

다중 분류 문제에 가장 간편히 적용할 수 있는 알고리즘

데이터가 크지 않고 예측이 까다롭지 않은 상황에서 KNN을 사용하면 신속하고 쉽게 예측 가능

베이스 라인 모델 활용

나이브 베이즈(naive Bayes)

구분 - 지도학습
유형 - 분류
적합한 데이터 유형 - 독립변수의 종류가 매우 많은 경우

특징

범용성이 높지는 않지만 독립변수들이 모두 독립적일 때 경쟁력 있는 알고리즘

딥러닝을 제외한 자연어 처리에 가장 적합한 알고리즘

일반적으로 사용하기 힘들지만 특수한 상황에 유용

결정 트리(Descision tree)

구분 - 지도학습
유형 - 회귀/분류
적합한 데이터 유형 - 일반적인 데이터

특징

예측력과 성능이 뛰어나지는 않지만 시각화가 매우 뛰어남

다른 트리 기반 모델에 기본이 되는 알고리즘

랜덤 포레스트(Random forest)

구분 - 지도학습
유형 - 회귀/분류
적합한 데이터 유형 - 일반적인 데이터

특징

앙상블 기법을 사용한 트리 기반 모델중 가장 보편적인 방법

부스팅 모델에 비하면 예측력이나 속도에서 부족한 부분이 있지만 기본이 되는 모델

XG부스트(XGBoost)

구분 - 지도학습
유형 - 회귀/ 분류
적합한 데이터 유형 - 일반적인 데이터

특징

대중적으로 많이 사용되는 검증된 부스팅 모델(캐글)

인기있는 모델로 참고 자료가 많음

LightGBM

구분 - 지도학습
유형 - 회귀/ 분류
적합한 데이터 유형 - 일반적인 데이터

특징

정형데이터에서 좋은 성능을 보여주는 부스팅 알고리즘

속도가 빠르고 예측성능이 뛰어나 많이 이용됨

K-평균 군집화(K MEANS Clustering)

구분 - 비지도학습

특징

많은 데이터를 사용할 때 특징을 살펴볼수 있음

데이터를 적절한 수의 그룹으로 나누고 분석할 수 있음

여러 클러스터링 기법중 보편적이고 무난하게 사용

주성분 분석(PCA)

구분 - 비지도 학습

특징

PCA는 차원 축소 기법중 가장 인기있고 구현하기 쉬운 편에 속하는 알고리즘

참고 자료

출처 - 데싸노트의 실전에서 통하는 머신러닝, 권시현

샘2

부지런한 개발자가 되고싶은

이전 포스트

(머신러닝)지도학습

다음 포스트