[TIL] 22.11.08

문종현·2022년 11월 8일
0

TIL

목록 보기
34/119
post-custom-banner

👉 오늘 한 일

  • bike sharing demand 이어서
  • house price 경진대회

bike sharing demand

🤔피처 중요도는 높지만 성능 자체가 떨어졌다면?

  • 피처 중요도란 어느 데이터 요소가 확률값 계산에 중요하게 작용을 했느냐 하는 정도를 나타내는 것임. 중요도가 높다고 점수에 좋은 영향을 미친다는 것은 아님.
  • 피처 중요도는 해당 모델이 학습을 할 때 중요한 역할을 했다고 알려주지만 피처 중요도가 모델의 성능을 설명하지는 않음. 모델의 성능은 모의고사를 보는 과정과 유사한 cross validation 점수가 올라갔는지 내려갔는지를 확인해 보아야 함.
  • 스코어 측정 방법에 따라 점수가 올라가야지 좋은 성능을 낸다고 판단하는 측정지표도 있고 내려가야 좋은 측정지표도 있으니 구분해서 볼것

점수가 높아야 좋은 측정 지표

  • 회귀 모델에서 독립변수가 종속변수를 얼마나 잘 설명했는지 보여주는 결정계수 (r2 score), 정확도를 기반으로 하는 분류의 측정지표인 Accuracy 등

💡 상대경로와 절대경로
상대경로 : 현재 경로를 기준으로 하는 경로

  • 상대경로에서 기본적으로 같은 위치를 뜻하는 키워드는 .
  • e.g. ./ 는 현재경로를 의미. ../ 는 상위 경로를 의미함.
  • ./ 를 쓰는 것과 아무것도 안 쓰는것은 모두 같은 위치(현재 경로)를 나타냄

절대경로 : 전체 경로를 다 지정하는 경로

  • e.g. C: 부터 시작하는 경로
  • 절대경로를 사용하면 다른 사람의 컴퓨터에서 동작하지 않기 때문에 되도록이면 상대경로를 사용하는 것을 권장함.

💡예측변수의 log변환

  • log를 count값(예측변수)에 적용하게 되면 한쪽으로 뾰족하게 있던 분포가 좀 더 완만한 분포가 됨

  • 데이터에 따라 정규분포에 가까워지기도 함(꼭 그런것은 아님)

  • log를 취하게 되면 이상치에도 덜 민감하게 됨

  • log함수(np.log)에 지수함수(np.exp)를 취하면 원래 값으로 되돌려줌

  • log를 취할 때는 1을 더하고 로그를 취했는데 지수함수를 적용할 때는 반대의 순서대로 복원해야 순서가 맞음. 즉, np.exp로 지수함수를 적용하고 -1 을 취해 로그를 취했던 순서를 복원해 주면 됨

🤔왜 정규분포가 되면 머신러닝이나 딥러닝에서 좋은 성능을 낼까?

  • 값을 볼 때 한쪽에 너무 치우쳐져 있고 뾰족하다면 특성을 제대로 학습하기가 어렵기 때문에 정규분포로 되어 있다면 특성을 고르게 학습할 수 있음

🤔실무에서 어떻게 평가지표를 활용할까?

  • 실무에서는 보통 비즈니스 평가지표를 더 많이 사용함. 경진대회나 실습에서 사용하는 평가지표는 모델의 성능을 측정해서 객관화 해보기 위해 사용하는 것. 모델을 만드는 목적은 비즈니스 문제 해결을 위해서임. 그 모델의 목적이 DAU를 올리는 것이라면 DAU를 측정하고 매출을 늘리고 싶다면 매출액이 늘어났는지, 구매자수가 늘어났는지 등을 평가하게 됨.

💡RandomizedSearchCV
원래 평가 지표 : RMSLE

예측변수에 log를 이미 취해준 상태이므로 GridSearchCVRandomizedSearchCV를 사용할 때 scoring을 RMSE(neg_root_mean_squared_error)로 해줌

🤔왜 neg 값을 사용할까?

  • 오피셜로 나온 정보는 없음.
  • 추측하건데, 점수 정렬을 위해 음수를 붙여준 것이 아닐까..?
    • e.g. Accuracy, r2 score는 큰 값일수록 좋은 값이기 때문에

파라미터 범위를 너무 낮게 잡으면 과소적합이 발생할 수 있음

최종 모델의 예측값에는 np.expm1() 을 취해줌

house price

💡feature engineering

데이터 분석에 정해진 순서는 없으나, 일반적으로 이런 순서

  • 데이터 수집, 전처리, EDA, feature engineering, 필요한 경우 머신러닝 등
  • 꼭 순서를 지켜서 이뤄지지 않음

feature selection
feature extraction
scaling
transform
binning
dummy

hist를 그렸을 때 막대가 이어져있지 않고 떨어져있는 값은 범주형 값에 가까움.

profile
자라나라 새싹새싹🌱
post-custom-banner

0개의 댓글