모델의 성능 평가 지표와 관련된 내용은 네이버 블로그에서 정리한 바 있다. 오늘은 분류 알고리즘 중 결정트리를 중심으로 정리한다. ch4.0 분류 (Classification) 지도학습의 대표적인 유형으로는 'Classification'이 있다. 이는 기존의 데이터
결정트리 모델의 시각화는 export_graphviz() API를 사용하여 할 수 있다고 정리한 바 있다. 붓꽃 품종 데이터셋으로 결정트리 모델을 학습시키고 시각화한 예시 코드는 아래와 같다.데이터 로드 후 결정트리 모델 학습export_graphviz() API를 사
결정트리는 균일도에 기반하여 규칙 조건을 설정하는 모델이다. 사이킷런은 결정트리 알고리즘이 규칙을 정하는 데 있어 피처의 중요한 역할 지표를 DecisionTreeClassifier 객체의 속성으로 제공한다.해당 속성은 ndarray 형태로 값을 반환하며, 피처 순서대
Ensemble Learning (앙상블 학습)앙상블 학습을 통한 분류는 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 예측을 도출하는 방법을 말한다. 대부분의 정형 데이터 분류 시에는 앙상블이 뛰어난 성능을 나타내며, 성능이 좋다고 알려진 최신 앙상
랜덤 포레스트는 앙상블 배깅 방법의 대표적인 알고리즘이다. 배깅은 바로 이전 글에서 정리한 보팅(https://velog.io/@bansohi/ML-ch4.3-Ensemble-LearningRandom Forest (랜덤 포레스트)랜덤 포레스트는 결정 트리를
이전 글에서 보팅, 배깅 알고리즘에 대해 다루었다면, 이번 글에서는 부스팅 알고리즘에 대해 다룬다. 부스팅 알고리즘의 대표적인 예가 바로 GBM이다! 부스팅 알고리즘은 여러 개의 약한 학습기 (weak learner) 를 순차적으로 학습, 예측하면서 잘못 예측한 데이
XGBoost는 GBM을 기반하고 있지만, GBM의 느린 수행 시간 및 과적합 규제 부재 등의 문제를 보완한 알고리즘이다. 트리 기반의 앙상블 학습에서 많이 사용되고 있다.분류와 회귀에서의 뛰어난 예측 성능GBM 대비 빠른 수행 시간과적합 규제Tree pruning X
LightGBM LightGBM은 XGBoost와 함께 부스팅 계열 알고리즘에서 가장 많이 사용된다. XGBoost는 GBM 보다는 빠르지만 여전히 학습 시간이 오래 걸린다는 단점이 있다. LightGBM은 이러한 학습 시간을 개선한 알고리즘이라 할 수 있겠다. (메
지금까지는 GridSearchCV를 이용하여 하이퍼 파라미터 튜닝을 수행했다. 하이퍼 파라미터의 수가 많은 XGBoost나 LightGBM과 같은 모델은 GridSearchCV를 이용하여 튜닝 시 많은 수행 시간이 요구된다. (저 모델들이 하이퍼 파라미터가 상대적으로
캐글의 산탄데르 고객 만족 데이터셋에 대해 LigthGBM과 XGBoost를 활용하여 예측한다. feature은 총 370개, 클래스 레이블 명은 TARGET이고, 이때 해당 값이 1이면 불만을 가진 고객, 0이면 만족한 고객을 의미한다.이때, 불균형 데이터셋이므로 모
지난 글에서는 XGBoost를 이용한 산탄데르 고객 만족 예측에 대해 정리하였다. 이번 글에서는 LightGBM을 이용한다.아래와 같이 동일한 데이터 로드 및 전처리 과정을 수행한다.데이터 로드데이터 확인info(), describe()NaN 및 이상치 값 처리\-99
이번 장에서는 kaggle의 신용카드 데이터셋을 이용하여 신용카드 사기 검출 분류 실습을 수행한다. 일반적으로 사기 검출 (Fraud Detection) 이나 이상 검출 (Anomaly Detection) 과 같은 데이터셋은 레이블 값이 불균형한 분포를 가지기 쉽다.불
스태킹 (Stacking) 과 배깅, 부스팅 비교공통점은 개별적인 여러 알고리즘을 서로 결합해 예측 결과를 도출한다는 것차이점은 스태킹 앙상블의 경우, 1) 개별 알고리즘으로 예측한 데이터를 기반으로 2) 다시 예측을 수행한다는 것스태킹 모델은 아래의 두 종류의 모델이
회귀
단순 선형 회귀 정의단순 선형 회귀는 독립변수 1개, 종속변수 1개를 가진 회귀 모델을 말한다. 즉, 직선 형태!오류 값 = 잔차 값실제 값과 예측 값의 차이를 오류 또는 잔차라고 한다. 오류 합 계산 방법은 아래와 같다.1) MAE (Mean Absolute Erro
비용 함수가 최소가 되는 회귀 계수를 어떻게 구할 수 있을까?경사 하강법은 비용 함수인 RSS를 최소화하는 방법을 직관적으로 제공하는 뛰어난 방식이다. 점진적인 계산을 반복하여 회귀 계수의 값을 업데이트하고 오류 값이 최소가 되는 회귀 계수를 찾는다.아래와 같이 비용
8장에서는 텍스트 분류, 감정 분석, 텍스트 요약, 텍스트 군집화/유사도에 대해 다루고 있다.NLP목적머신이 인간의 언어를 이해하고 해석하는 데 더 중점을 두고 기술이 발전예언어를 해석하기 위한 기계 번역자동으로 질문을 해석하고 답을 해주는 질의응답 시스템Text Mi
.
BOW 모델이란 ?BOW 모델은 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여하여 피처 값을 추출하는 모델이다.BOW 모델 프로세스문장1과 문장2가 있다고 가정하자.두 문장에 있는 모든 단어에서 중복을 제거하고, 각 단어 (