[12주차] 머신러닝

목해민·2023년 3월 23일
0

모델평가

모델 평가의 개념

  • 모델을 좋다 나쁘다 등으로 평가할 방법은 없다

  • 대부분 다양한 모델, 다양한 파라미터를 두고, 상대적으로 비교

  • 회귀모델들은 실제 값과의 에러치를 가지고 계산

  • 분류 모델의 평가 항목이 조금 많음

    • 정확도 Accuracy
    • 오차행렬 Confusion Matrix
    • 정밀도 Precision
    • 재현율 Recall
    • F1 score
    • ROC AUC
  • 이진 분류 모델의 평가

    • TP True Positive : 실제 Positive를 Positive라고 맞춘 경우
    • FN False Negative : 실제 Positive를 Negative라고 틀리게 예측한 경우
    • TN True Negative : 실제 Negative를 Negative라고 맞춘 경우
    • FP False Positive : 실제 Negative를 Negative라고 틀리게 예측한 경우
  • 분류모델은 그 결과를 속할 비율(확률)을 반환한다.

  • Recall과 Precision은 서로 영향을 주기 때문에 한 쪽을 극단적으로 높게 설정해서는 안된다.

  • F1-score은 Recall과 Precision을 결합한 지표

  • Recall과 Precision이 어느 한 쪽으로 치우치지 않고 둘다 높은 값을 가질 수록 높은 값을 가짐

ROC / AUC

  • ROC 곡선

  • AUC 곡선

ROC 커브 그리기



Basic Regression

Linear Regression

만약 주택의 넓이와 가격이라는 데이터가 있고 주택 가격을 예측한다면

  • 학습 데이터 각각에 정답(주택 가격)이 정해져 있으므로 지도학습이며,
  • 주택 가격을 연속된 값으로 예측하는 것이므로 회귀 문제이다.

선형회귀

  • 입력변수(특징) x가 하나인 경우, 선형회귀 문제는 주어진 학습데이터와 가장 잘 맞는 가설 함수 h를 찾는 문제가 된다.

OLS : Ordinary Linear Least Square


잔차 평가 residue

  • 잔차는 평균이 0인 정규분포를 따르는 것이어야 함
  • 잔차 평가는 잔차의 평균이 0이고 정규분포를 따르는지 확인

결정계수 R-Squared

  • y_hat은 예측된 값
  • 예측값과 실제값(y)이 일치하면 결정계수는 1이된다.( 즉 결정계수가 높을수록 좋은 모델)

통계적 회귀





# pairplot으로 경향확인

plt.figure(figsize=(12,6))
sns.pairplot(data=data)



Cost Function

  • poly1d 사용법

Cost Function


Boston 집값 예측








Logistic Regression

  • 분류 문제로 사용
  • 분류 문제는 0또는 1로 예측해야 하나 Linear Regression을 적용하면 0보다 작거나 1보다 큰 값을 가질 수 있다.

코드는 github 확인

Precision and Recall

코드는 github 확인

앙상블 기법

  • 여러 개의 분류기를 생성하고 그 예측을 결합하여 정확한 최종 예측을 기대하는 기법

머신러닝 요약

profile
데이터분석가

0개의 댓글