🐹 머신러닝 알고리즘

민달팽이우유·2024년 7월 15일

🐹 머신러닝 기초

목록 보기

3/3

머신러닝 알고리즘의 종류들을 알아보자.

💡 1. 데이터 나누기

import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

X = 데이터프레임.drop('종속변수 열', axis=1)
y = 데이터프레임['종속변수 열']

# 모듈 임포트
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=테스트 데이터셋 비율, random_state=랜덤 시드값)

💡 2. 선형 회귀(Linear Regression)

데이터를 통해 데이터를 가장 잘 설명할 수 있는 직선으로 데이터를 분석하는 방법

단순 선형 회귀 분석(단일 독립변수 이용)

다중 선형 회귀 분석(다중 독립변수 이용)

# 모듈 임포트
from sklearn.linear_model import LinearRegression

lr = LinearRegression()
lr.fit(X_train, y_train) # 학습
pred = lr.predict(X_test) # 예측

💡 3. 의사 결정 나무(Decision Tree)

데이터를 분석하고 패턴을 파악하여 결정 규칙을 나무 구조로 나타낸 기계학습 알고리즘

간단하고 강력한 모델 중 하나로, 분류와 회귀 문제에 모두 사용

엔트로피: 데이터의 불확실성을 측정. 특정 속성으로 데이터를 나누었을 때 엔트로피가 얼마나 감소하는지를 계산하여 정보를 얻음. 정보 이득이 높은 속성을 선택하여 데이터를 나누게 됨

지니계수: 데이터의 불순도를 측정하는 또 다른 방법. 임의로 선택된 두 개의 요소가 서로 다른 클래스에 속할 확률을 나타냄. 지니 불순도가 낮을수록 데이터가 잘 분리된 것

의사 결정 나무는 오버피팅이 매우 잘 일어남

오버피팅(과적합): 학습데이터에서는 정확하나 테스트데이터에서는 성과가 나쁜 현상을 말함.

오버피팅을 방지하는 방법

사전 가지치기: 나무가 다 자라기 전에 알고리즘을 멈추는 방법

사후 가지치기: 나무를 끝까지 다 돌린 후에 밑에서부터 가지를 쳐 나가는 방법

# 모듈 임포트
from sklearn.tree import DecisionTreeRegressor

dtr = DecisionTreeRegressor()
dtr.fit(X_train, y_train) # 학습
pred = dtr.predict(X_test) # 예측
sns.scatterplot(x=y_test, y=pred) # 예측 시각화

# 트리 시각화 
from sklearn.tree import plot_tree
plot.figure(dtr, max_depth=화면에 보여줄 깊이, font_size=폰트 사이즈)
plt.show()

💡 4. 로지스틱 회귀

둘 중의 하나를 결정하는 문제(이진 분류)를 풀기 위한 대표적인 알고리즘

이진 분류에 적합하지만, 다항 분류 문제에도 확장될 수 있음

예측(x) 분류(o)

종속 변수 Y는 두 가지 범주 중 하나를 가짐(예: 0 또는 1)

특정 범주의 속할 확률을 예측하는 것이 목표

일반화 선형 모델의 일종으로, 독립 변수의 선형 조합을 로지스틱 함수(시그모이드 함수)를 사용하여 종속 변수에 대한 확률 점수로 변환 (0~1)

확률에 따라 0과 1로 분류하는데 임계값 설정을 통해 0과 1로 나누는 기준을 정해줄 수 있음

# 모듈 임포트
from sklearn.linear_model import LogisticRegression

lr = LogisticRegression()
lr.fit(X_train, y_train) # 학습
pred = lr.predict(X_test) # 예특

# 정확도 구하기
from sklearn.metrics import accuracy_score
accuracy_score(y_test, pred)
# 데이터 쏠림 현상 등의 이유로 accuracy_score만으로는 학습이 제대로 됐는 지 알 수 없기 때문에 추가 확인 필요
데이터프레임[종속변수].value_counts()

💡 5. 랜덤 포레스트

5-1. 앙상블 모델

여러개의 머신러닝 모델을 이용해 최적의 답을 찾아내는 기법을 사용하는 모델
보팅(Voting)
- 서로 다른 알고리즘 model을 조합해서 사용
- 모델에 대해 투표로 결과를 도출
배깅(Bagging)
- 같은 알고리즘 내에서 다른 sample 조합을 사용
- 샘플 중복 생성을 통해 결과를 도출
부스팅(Boosting)
- 약한 학습기들을 순차적으로 학습시켜 강력한 학습기를 만듦
- 이전 오차를 보완해가면서 가중치를 부여
- 성능이 우수하지만 잘못된 레이블이나 아웃라이어에 대해 필요이상으로 민감
- AdaBoost, Gradient Boosting, XGBoost, LightGBM
스태킹(Stacking)
- 다양한 개별 모델들을 조합하여 새로운 모델을 생성
- 다양한 모델들을 학습시켜 예측 결과를 얻은 다음, 다양한 모델들의 예측 결과를 입력으로 새로운 메타 모델을 학습

5-2. 랜덤 포레스트(Random Forest)

머신러닝에서 많이 사용되는 앙상블 기법 중 하나이며, 결정 나무를 기반으로 함

학습을 통해 구성해 놓은 결정 나무로부터 분류 결과를 취합해서 결론을 얻는 방식

랜덤 포레스트의 트리는 원본 데이터에서 무작위로 선택된 샘플을 기반으로 학습함

각 트리가 서로 다른 데이터셋으로 학습되어 다양한 트리가 생성되며 모델의 다양성이 증가함

각각의 트리가 예측한 결과를 기반으로 다수결 또는 평균을 이용하여 최종 예측을 수행함

분류와 회귀 문제에 모두 사용할 수 있으며, 특히 데이터가 많고 복잡한 경우에 매우 효과적인 모델

성능은 꽤 우수한 편이나 오버피팅 하는 경향이 있음

# 모듈 임포트
from sklearn.ensemble import RandomForestClassifier

rf = RandomForestClassifier(random_state=2024)
rf.fit(X_train, y_train)
pred = rf.predict(X_test)
proba = rf.predict_proba(X_test)

# 첫번째 테스트 데이터에 대한 예측 결과
proba[0]

민달팽이우유

어떻게 햄스터가 개발자

이전 포스트

🐹 머신러닝 알고리즘

🐹 머신러닝 기초

💡 1. 데이터 나누기

💡 2. 선형 회귀(Linear Regression)

💡 3. 의사 결정 나무(Decision Tree)

💡 4. 로지스틱 회귀

💡 5. 랜덤 포레스트

5-1. 앙상블 모델

5-2. 랜덤 포레스트(Random Forest)

🐹 Scikit-learn

0개의 댓글