1. Machine Learning의 개념 기계학습 또는 머신러닝은 인공 지능의 한 분야로, 컴퓨터가 학습할 수 있도록하는 알고리즘과 기술을 개발하는 분야. > Y=F(X)으로, y는 출력변수(종속변수) x는 입력변수(독립변수) -주어진 데이터를 통해서 입력변수와
: 입력변수의 X의 정보를 활용하여 출력변수인 Y를 예측하는 방법Y = B0+B1X+e\-입력 변수가 X, 출력 변수가 Y일 때, 단순선형회귀의 회귀식은 검은 선으로 나타낼 수 있음\-B0은 절편(intercept),B1은 기울기(slope)이며 합쳐서 회귀계수(coe
실습에 사용할 데이터 셋은 보스턴 집값 데이터로, 변수는 다음과 같다. Statsmodels을 활용한 단순선형회귀분석 crim/rm/lstat 세 개의 변수로 각각 단순 선형 회귀 분석하기
단순선형회귀분석과 같은 데이터셋을 사용한다. >* 상관계수/산점도를 통해 다중공선성 확인* ![](https://images.velog.io/images/hhhs101/post/6a63dda
PART 04.\-모델 선택(변수 선택): 변수가 여러 개일 때 최선의 변수 조합을 찾아내는 기법변수의 수가 p개일 때 변수의 총 조합은 2^p으로 변수 수가 증가함에 따라 변수 조합의 수는 기하급수적으로 증가1) Feedforward Selection 방법:변수를 추
p(A): 사전 확률p(A|B): A의 사후 확률p(B|A): 우도(likelihood)p(B): B의 사전 확률베이즈 정리는 두 확률 변수의 사전 확률과 사후 확률 사이의 관계를 나타내는 정리이다. 사전확률로 부터 사후확률을 구할 수 있다.
나이브 베이즈 알고리즘은 텍스트 분류에서 많이 사용되는 알고리즘이다.EX) 텍스트 출현 빈도 분류(정상메일/스팸메일) 확률을 각각 계산 후 확률이 더 높은 쪽으로 결과 출력.1\. Gaussian Naive Bayes1) 데이터, 모듈 불러오기2) 가우시안 나이브 베이
데이터로부터 거리가 가까운 k개의 다른 데이터의 레이블을 참조하여 분류하는 알고리즘\-Distance d(a,b)의 선택범주형 변수 : 해밍 거리연속형 변수 : 유클리디안 거리, 맨하탄 거리 \*과적합의 문제\-Training set을 가장 잘 맞히는 머신은 Test
서포트 벡터 머신(SVM: Support Vector Machine)은 분류에 사용하는 머신러닝 지도학습 모델이다. 즉 Support Vector(각 클래스의 점들)를 사용하여 분류를 위한 기준 선, 결정 경계(Decision Boundary)을 정의하는 모델이다.Ma
노드(node)란? 네모 칸 안에 있는 요소들로, 분류의 기준이 되는 위치\-parent node : 상위노드\-child node : 하위노드\-root node : 가장 상위 노드 (더이상 상위노드 없음)\-leaf node : 가장 아래의 노드 (더이상 하위노드
Ensemble Learning: 여러 개의 기본 모델을 활용하여 하나의 새로운 모델을 만들어내는 개념Test데이터에 대해 다양한 의견(예측값)을 수렴하기 위해 overfitting이잘 되는 모델을 기본적으로 사용하며, Tree기반 모델 (Boosting,RandomF
각 데이터의 유사성을 측정하여 높은 대상 집단을 분류하고, 군집 간에 상이성을 규명하는 방법Clustering의 종류\-K-means Clustering: 데이터를 사용자가 지정한 K개의 군집으로 나눔\-Hierarchical Clustering(계층적 군집분석): 나
데이터 스케일링(Data Scaling) :* 데이터 값의 스케일(범위)를 조정*해주는 것이다. 특성 별로 값의 스케일이 다르다면, 머신러닝이 제대로 작동하지 않을 수 있기 때문에 데이터 스케일링 작업을 해주어야 한다. scikit-learn은 다양한 scaler를
특히, object형을 대상으로 한다. 1. Label Encoding : n개의 범주형 데이터를 0부터 n-1까지의 연속적 수치 데이터로 표현하는 것이다. 인코딩 결과가 수치적인 차이를 의미하진 않는다. 위와 같이 레이블 인코딩은 문자열 값을 숫자형 카테고리
< 분류에서 사용하는 성능지표 >ref) https://yngiec.github.io/machine%20learning/2020/05/01/val_eval/분류에서 가장 많이 사용되는 오분류표이다. 행렬의 배치는 그리는 사람에 따라 달라질 수 있으며, S
: Test test를 평가하기 전에, Training set와 Test set에서 알고리즘을 학습하고 평가하는 것이다. 또한 과적합(overfitting)을 막기 위해 교차검증을 한다.\*과적합의 문제\-Training set을 가장 잘 맞히는 머신은 Test set
불균형 데이터(Imbalanced data processing) 위와 같이, 데이터에서 각 클래스가 갖고 있는 데이터의 양에 차이가 큰 경우를 말한다. 신용사기 검출의 경우, 정상 거래인 경우가 비정상 거래보다 훨씬 많은 것이다. 클래스 불균형 데이터를 이용해 분류
머신러닝을 할 때 보통 데이터 전처리를 하게 되는데, 전처리와 모델 fit과정을 pipeline을 통해 한 번에 진행할 수 있다. 즉, 데이터의 연속된 변환을 순차적으로 적용 및 학습을 할 수 있다. pipeline은 특히 PCA나 One-hot encoding과 같이, train set 정보를 기억해서 test set에 적용해야 할 때 유용하다.
PCA는 가장 대표적인 차원 축소 기법으로, 여러 변수 간에 존재하는 상관관계를 이용해 이를 대표하는 주성분을 추출해 차원을 축소하는 기법이다. 제일 먼저 가장 큰 데이터 변동성을 기반으로 첫 번째 벡터 축을 생성하고, 두 번째 축은 이 벡터 축에 직각이 되는 벡터(직
1. Optuna 하이퍼파라미터 튜닝방법에는 GridSearchCV 이외에 Optuna도 있다. Optuna는 최신 Automl 기법이라 빠르게 튜닝이 가능하다. 기존의 GridSearchCV는 하이퍼 파라미터 값을 직접 지정해주어야 하지만, Optuna는 러프하게
PyCaret은 AutoML을 해주는 파이썬 라이브러리로, scikit-learn 패키지를 기반으로 하고 있다. **1) 데이터셋 준비: setup() 2) 모델 성능 비교 및 모델 생성: comparemodels(),createmodel() 3) 모델 튜닝 및 블랜
ARIMA모델은 AR(Autoregression)모형과 MA(Moving Average)모형을 합친 모형으로, 시계열 데이터의 정상성을 가정한다. > 정상성: 평균,분산이 시간에 따라 일정한 성질 비정상성인 데이터는 정상성을 갖도록 로그변환, 차분한다. 1) 변동폭