정형 데이터 : N x P, Table 데이터비정형 데이터 : Image, Text …X : Variables, Features, Columns, 독립변수, 설명변수 \- Numerical : 연속적인 변수 (2는 1보다 크다, 변수에 대/소가 의미 있음) \- C
각 𝜷 에 대해 편미분을 사용하여 추정을 수행함Linear Regression의 Loss Function은 Closed Form Quadratic 이기 때문에 미분만으로 쉽게 추정 가능𝜷 가 여러 개 일 때 똑같이 각 𝜷 에 대해 미분 수행 후 추정함𝜷 에 대한
Model의 평가 기준동일한 평가 기준으로 Model의 성능을 평가 해야 함Regression Model의 정성적인 적합도 판단$𝑹^𝟐$ 는 평균으로 예측한 것에 대비 분산을 얼마나 축소 시켰는지에 대한 판단보통은 아래의 수식과 달리 Correlation($𝒚$
Overfitting을 방지하기 위해서 Feature Selection 수행Feature의 수가 많아지면 많아질수록 Model Complexity(복잡도)는 높아짐Model Complexity가 높아지면 높아질 수록 Bias는 낮아 지는 반면 Variance가 높아짐따
전통적인 Feature Selection 방법의 단점 전통적인 Feature Selection 방법은 Variables가 커짐에 따라 시간이 매우 오래 걸리게 됨 Forward Selection, Backward Elimination, Stepwise Selection
Ridge Regression $β^𝟐$ 에 Penalty Term을 부여하는 방식 Penalty Term을 추가한 Regularized Model의 경우 Feature 간 Scaling이 필수 Regularization은 모델의 복잡도를 조절하여 과적합(ove
Least Absolute Shrinkage and Selection Operator|β| = $𝑳𝟏$−𝑛𝑜𝑟𝑚 = $𝑳𝟏$ Regularization 에 Penalty Term을 부여하는 방식MSE Contour: 중심에서 멀어질수록 Error 증가 ⠀
Ridge + LASSO = ElasticNetElasticNet은 Ridge의 $𝑳𝟏$−𝑛𝑜𝑟𝑚 과 LASSO의 $𝑳𝟐$−𝑛𝑜𝑟𝑚 을 섞어 놓았음 (두 개의 장점 사용 가능)$λ\_𝟏$ : LASSO Penalty Term (Feature Se
Regression Loss Function은 Error의 크기를 측정 할 수 있었음하지만 Classification Loss Function은 옳고 그름 2가지 밖에 없음단, Class가 2개 이상일 수 있음가장 기본적인 Classification ModelDecis

데이터를 분석하여 이들 사이에 존재하는 패턴을 예측 가능한 규칙(Rules)들의 조합으로 나타냄모양이 ‘나무’와 같다고 해서 의사 결정 나무라고 불림질문을 던져서 대상을 좁혀 나가는 ‘스무고개’ 놀이와 비슷한 개념Linear Regression과 다르게 Model의 C

평가 지표가 달라지게 됨TP(True Positive), 참양성: 예측한 값이 Positive이고 실제 값도 Positive인 경우FN(False Negative), 거짓음성: 예측한 값이 Negative이고 실제 값은 Positive인 경우FP(False Positi

어떤 데이터를 학습할 때, 여러 개의 모델을 조화롭게 학습 시켜 그 모델들의 예측 결과들을 이용하여 더 정확한 예측 값을 구할 수 있음True functions, estimations, and the expected error$$y_m(x) = f(x) + \\epsi

Bagging : Reduce the VarianceStacking : Use another prediction modelBoosting : Reduce the BiasReduce the VarianceBagging : Bootstrap AggregatingBootst

Random Decision Forests (1995) – Bell Labs의 Tin Kam Ho 박사 (단순 여러 개의 Decision Tree 를 랜덤하게 고른 Feature로 학습한 후 조합)Random Forests (2001) – UC Berkeley