Model Representation 3월에 여는 편의점의 수익을 예측하는 상황을 가정해 보자. |Month|# visited customers|Revenue| |:-:|:-:|:-:| |Aug|6000|$60K| |Jul|5200|$52K| |Jun|4500|$5
이전 시간에 배웠듯이 linear model은 오직 하나의 global optima를 가지므로, linear model임이 확정된다면, 미분값 0인 지점을 단순 계산으로 찾아 J(β)가 최소인 지점을 정의하는 것이 가능하다! 🐱🏍 Normal Equations
🐱🏍 Likelihood Function 주어진 sample들을 가장 잘 나타내는 distribution을 찾는 방법! 높이는 주어진 sample이 해당 distribution에서 나왔을 확률(Probability)를 의미한다. Assumptions 1, 4,
🐱🏍 Classification decision boundary를 찾아가는 과정! ex) 위 그림의 경우 output이 둘로 나뉘어지므로 binary classification이다 .... spam detection을 예시로 들어보자. $x_i$: featur
What is Decision Trees? Decision Tree는 Regression과 Classification에 사용 가능한 Supervised Model이다. Decision Tree Components Root node: 맨 처음 분류기준 (딱 1개뿐이다!) Intermediate node: 중간 분류기준 Leaf node: 맨 마지막 분류기...
Problems in Decision Trees Decision Tree는 Overfitting이 일어날 수밖에 없으며, 그 해결책으로 제시된 Pre-pruning과 Post-pruning도 완전하지 않다. 그렇다고 expansion을 안 시킬 수도 없는 노릇이니 근본적인 대책이 필요한데... 아래의 두 가지 방법 모두 tree를 여러 개 만든다는 공통점...
모델의 성능을 어떻게 평가할 수 있을까? Bias-variance tradeoff Data splits Cross validation Classification metrics Regression metrics Bias-variance Tradeoff 복습 Example 주어진 data에 맞는 hypothesis function으로, 이차함수 $f$가 다음...
k-Nearest Neighbors (k-NN) supervised learning의 일종(label 주어짐)인 거리 기반 분류 모델 🍜 거리 기반 분류 모델 testing data의 이웃들의 label을 고려하여 분류 이웃을 결정하기 위한 거리 측정 (이용할 metrics 결정) 고려할 이웃의 수 ($k$값) 결정 (출처: $k=3$, 즉 홀...
K-Means 수식 부분만 정리해 두자... $i$: data point의 개수 $k$: cluster의 개수, 즉 centroid의 개수 $k$개의 centroid를 랜덤하게 생성 > $μ1, μ2, \cdots, μ_k ∈ \mathbb{R}^d$ ($k$개의 centroid는 given data space 내에 존재해야 함) 아래 과정을 수렴할 때...