[ML] Pycaret 분류 알고리즘

devhans·2024년 9월 3일

ML

목록 보기

3/4

1. LR (Logistic Regression)

로지스틱 회귀는 이진 분류 문제에서 주로 사용되는 알고리즘으로, 주어진 입력 데이터에 대해 특정 클래스에 속할 확률을 계산합니다. 로지스틱 함수(시그모이드 함수)를 사용하여 결과를 0과 1 사이의 값으로 변환합니다.
Prediction Score: 이 확률 값이 prediction_score로, 특정 클래스에 속할 확률을 의미합니다.

2. KNN (K Neighbors Classifier)

KNN은 새로운 데이터 포인트를 분류할 때, 가장 가까운 K개의 이웃의 클래스를 참조하여 다수결로 분류하는 방법입니다.
Prediction Score: 가장 가까운 K개의 이웃 중 특정 클래스에 속한 이웃의 비율이 prediction_score로 계산됩니다.
의미: 스코어가 높을수록 해당 클래스에 속할 가능성이 크다는 것을 의미합니다.

3. NB (Naive Bayes)

나이브 베이즈는 베이즈 정리를 기반으로 한 분류 알고리즘으로, 각 특징이 독립적이라는 가정하에 클래스 확률을 계산합니다.
Prediction Score: 주어진 데이터가 각 클래스에 속할 확률을 계산하며, 이 확률이 prediction_score입니다.
의미: 스코어가 높을수록 해당 클래스에 속할 가능성이 높습니다.

4. DT(Decision Tree Classifier)

의사결정 나무는 데이터를 분할하면서 분류하는 방법으로, 각 분할은 특정 특징에 기반한 조건으로 이루어집니다.
Prediction Score: 각 경로를 따라 내려가면서 최종 노드에서 특정 클래스에 속할 확률을 prediction_score로 사용합니다.
의미: 스코어가 높을수록 해당 경로로 도달한 데이터가 특정 클래스에 속할 가능성이 크다는 의미입니다.

5. SVM (SVM -Linear Kernel)

서포트 벡터 머신(SVM)은 데이터를 선형적으로 분리하는 최적의 초평면을 찾아 분류합니다.
Prediction Score: 결정 경계(초평면)로부터의 거리로 prediction_score를 계산합니다.
의미: 스코어가 양수이면 한 클래스, 음수이면 다른 클래스로 분류되며, 절댓값이 클수록 분류에 대한 확신이 높음을 의미합니다.

6. RBFSVM - (SVM - Radial Kernel)

RBF(방사형 기저 함수) 커널을 사용하는 SVM은 비선형 데이터를 처리하며, 입력 공간을 고차원으로 변환해 분류합니다.
Prediction Score: 결정 경계로부터의 거리로 prediction_score를 계산하며, 이 경우 비선형 경계에 대한 거리입니다.
의미: 스코어가 양수이거나 음수인지에 따라 분류하며, 절댓값이 클수록 분류의 확실성이 높습니다.

7. GPC (Gaussian Process Classifier)

가우시안 프로세스는 확률적 방법을 사용하여 데이터를 분류하며, 예측의 불확실성을 포함합니다.
Prediction Score: 특정 클래스에 속할 확률로 prediction_score를 계산합니다.
의미: 스코어가 높을수록 해당 클래스에 속할 가능성이 높음을 나타냅니다.

8. MLP (MLP Classifier)

MLP는 인공 신경망 기반의 분류기로, 여러 층의 뉴런을 통해 데이터를 학습하여 예측을 수행합니다.
Prediction Score: 출력 뉴런의 활성화 값으로 prediction_score를 계산하며, 이는 특정 클래스에 속할 확률을 나타냅니다.
의미: 스코어가 높을수록 해당 클래스에 속할 가능성이 큽니다.

9. RIDGE (Ridge Classifier)

릿지 분류기는 선형 회귀를 기반으로 하며, 과적합을 방지하기 위해 L2 규제를 적용하여 분류를 수행합니다.
Prediction Score: 결정 경계로부터의 거리로 prediction_score를 계산합니다.
의미: 스코어가 양수이거나 음수인지에 따라 클래스가 결정되며, 절댓값이 클수록 분류의 확실성이 높습니다.

10. RF (Random Forest Classifier)

랜덤 포레스트는 여러 개의 결정 트리를 조합하여 분류를 수행하는 앙상블 방법입니다. 각 트리의 결과를 종합하여 최종 예측을 합니다.
Prediction Score: 각 트리의 예측 결과를 종합한 클래스 확률로 prediction_score를 계산합니다.
의미: 스코어가 높을수록 해당 클래스에 속할 가능성이 큽니다.

11. QDA (Quadratic Discriminant Analysis)

이차 판별 분석 QDA는 각 클래스에 대해 이차 함수 형태의 결정 경계를 사용하여 분류하는 방법입니다.
Prediction Score: 주어진 데이터가 각 클래스에 속할 확률로 prediction_score를 계산합니다.
의미: 스코어가 높을수록 해당 클래스에 속할 가능성이 큽니다.

12. ADA (Ada Boost Classifier)

AdaBoost는 여러 약한 분류기를 결합하여 강한 분류기를 만드는 앙상블 기법으로, 각 반복에서 틀린 예측에 가중치를 더해 분류합니다.
Prediction Score: 최종 가중치가 반영된 예측 확률로 prediction_score를 계산합니다.
의미: 스코어가 높을수록 해당 클래스에 속할 가능성이 큽니다.

13. GBC (Gradient Boosting Classifier)

그래디언트 부스팅은 각 단계에서 잔차(오차)를 줄이기 위해 새로운 모델을 추가하는 앙상블 기법입니다.
Prediction Score: 단계별 모델의 예측을 종합하여 클래스 확률로 prediction_score를 계산합니다.
의미: 스코어가 높을수록 해당 클래스에 속할 가능성이 큽니다.

14. LDA (Linear Discriminant Analysis)

선형 판별 분석 LDA는 클래스 간의 차이를 최대화하고, 클래스 내의 변동을 최소화하는 선형 결정 경계를 사용해 분류합니다.
Prediction Score: 클래스에 속할 확률로 prediction_score를 계산합니다.
의미: 스코어가 높을수록 해당 클래스에 속할 가능성이 큽니다.

15. ET (Extra Trees Classifier)

엑스트라 트리 분류기는 결정 트리를 기반으로 하며, 무작위성을 높여 일반화 성능을 향상시키는 방법입니다.
Prediction Score: 여러 트리의 예측 결과를 종합한 클래스 확률로 prediction_score를 계산합니다.
의미: 스코어가 높을수록 해당 클래스에 속할 가능성이 큽니다.

16. XGBOOST (Extreme Gradient Boosting)

XGBoost는 그래디언트 부스팅의 향상된 버전으로, 성능과 효율성이 뛰어납니다.
Prediction Score: 모델의 예측을 종합한 클래스 확률로 prediction_score를 계산합니다.
의미: 스코어가 높을수록 해당 클래스에 속할 가능성이 큽니다.

17. LIGHTGBM (Light Gradient Boosting Machine)

LightGBM은 그래디언트 부스팅 기반의 알고리즘으로, 대규모 데이터셋에서 효율적으로 작동하도록 설계되었습니다.
Prediction Score: 모델의 예측을 종합한 클래스 확률로 prediction_score를 계산합니다.
의미: 스코어가 높을수록 해당 클래스에 속할 가능성이 큽니다.

18. CATBOOST(CatBoost Classifier)

CatBoost는 범주형 데이터를 처리하는 데 최적화된 그래디언트 부스팅 알고리즘입니다.
Prediction Score: 모델의 예측을 종합한 클래스 확률로 prediction_score를 계산합니다.
의미: 스코어가 높을수록 해당 클래스에 속할 가능성이 큽니다.

devhans

책 읽고 운동하기

이전 포스트

[ML] Pycaret 이상치 탐지 알고리즘 정리

다음 포스트