1. 머신러닝의 정의 Machine Learning은 사전에 정의된 알고리즘에 따라 데이터의 패턴을 학습하고 결과를 예측하는 기법을 뜻한다. 머신러닝 알고리즘은 다양한 수학적 기법을 활용하여, 예측 오류를 최소화고 데이터의 통계적 신뢰도를 향상시켜 인간이 찾아내기 어려
대표적인 Python Machine Learning(ML) 라이브러리 중 하나다.
Label(레이블) = 결정값 = 정답 Feature
1. 데이터 전처리 1.1. 결측값(Missing Value) NaN(Not a Number), NA(Not Available) Null 등으로 표현되는 결측값은 미응답, 수집 오류 등으로 인해 입력되어 있어야 할 데이터 값이 비어있는 것을 의미한다. 예컨대 회원가입을
머신러닝 알고리즘에 사용되는 입력 데이터에 해당하는 Features들을 처리하는 프로세스를 의미한다. 특성공간 차원축소의 필요성모델의 해석력 향상(차원의 저주 방지)너무 많은 Features를 사용하면 해석하기 어렵기 때문에 Features를 줄여서 직관적으로 이해하기
유사성(Similarity) 또는 비유사성(Dissimilarity)에 따라 데이터(개체)를 몇 개의 군집으로 나누는 비지도 학습 방법이다. 동일 군집 내 데이터는 유사하며 다른 군집은 비유사성이 높다.유클리디안 거리맨해튼거리민코우스키 거리단일 연결법 (최단 연결법,
분류 알고리즘지도학습 알고리즘Y가 범주형선형회귀분석과 달리 반응변수(Y)가 범주형 데이터인 경우 사용하는 기법이다. 즉 분류 알고리즘이다. 각 범주에 속할 확률을 추정한 후, 추정 확률을 분류 기준값(threshold, Cut off)에 따라 분류한다.이진(0/1)형
Tree Algorithm은 Classification과 Regression에서 모두 사용할 수 있다.목표변수가 범주형인 경우: Classification Tree목표변수가 연속형인 경우: Regression Tree의사 결정 규칙(Decision Rule)을 나무의
하나의 거래 또는 사건에 포함된 둘 이상의 품목 간의 상호 연관성을 발견하는 분석 과정이다. 고객이 동시에 구매하는 상품 간의 관계를 분석한다는 측면에서 Market Basket Analysis(장바구니 분석)이라고도 한다. 즉 핸드폰을 구매하는 고객이 동시에 이어폰,
LightGBM의 개요와 hyper parameter에 대해 알아본다.