: 데이터를 이해하기 위한 도구
01. Prediction(예측)
02. Inferece(추론)
03. Parametric Methods
STEP1 : 함수 형태 선택
STEP2 : 학습 데이터(training data)를 이용하여 파리미터 결정
04. MSE(Mean Squared Error)'
05. fitting
Overfit(과적합):과도하게 유연한 모델의 경우 오히려 예측 정확도가 떨짐
Greatefit(최적합)
Underfit(과소적합)
06. Train data vs Test data
07. MSE 관계
- Flexibility vs Interpretability (Trade off 관계)
- Irreducible ERROR까지 패턴을 찾기 위해 노력
-> MSE는 증가 (overfitting)
- 실제 f가 선형 함수인 경우
- 실제 f가 고차원 비선형 함수인 경우
08. Bias-Variance Trade-off
- Bias : 모델의 예측값과 실제 값 간의 차이
- Variance : 모델의 예측값이 훈련 데이터에 대한 변동성
<결론>
- Vairance와 Bias 동시에 줄이기 불가
- Vairance와 Bias의 합이 최소가 되는점 -> GOOD
: response Y -> quantitative가 아닌 qualitative/categorical
01. Bayes Classifier
: 데이터의 특징을 기반으로 각각의 클래스(카테고리)에 속할 확률을 계산하고, 가장 높은 확률을 갖는 클래스로 분류
02. KNN(K-nearest neighbors classifier)
: 주어진 데이터 포인트의 주변에 위치한 K개의 최근접 이웃들을 기반으로 분류
03. Bayes vs KNN
- Bayes, KNN 비교 그래프
- K=1, K=100에서의 bias, var
- bias, variance의 error, flexibility
01. Background
자료
정규분포
판정
02. 선형 회귀 (Linear regression)
: 입력 변수와 출력 변수 간의 선형 관계를 모델링하는 예측 알고리즘
: 주어진 입력 데이터와 해당하는 출력 값으로 최적의 선형 함수 찾기
-> 새로운 입력에 대한 출력 값 예측
(* 실제 regression 함수들은 선형 X)
03. 파라미터 추정 : Least square
i번째 잔차 = 실제 출력 값(i) - 예측 값(i)
RSS = Σ(실제 출력 값(i) - 예측 값(i))^2
ex) Least square fit 예제
04. 모델 정확도 평가
: estimate이 sample데이터에 대해 얼마나 바뀌는지 나태냄.
05. 가설 테스트
t-static
: Null가설을 제외 -> X와 Y사이에 linear 연관성이 있음
Linear Regression 모델 정확도 평가
- RSE(Residual Standard Error)
- R^2 statistic
- 예제1 (Sales VS TV)
: RSE -> 실제 모델을 찾아더라도 3.26 만큼 실제값과 떨어짐
: 61%의 sales 변화율이 TV로 설명 가능
<다른 고려사항들..>
06. 질적 예측자 (Qualitative Predictors)
07. 상호 작용 효과 (Interaction effects)
08. 비선형 연관성 (Nonlinear relationship)