[TIL] 210824

zhenxi·2021년 8월 24일
0

TIL

목록 보기
10/11

오늘 한 일

  • n231 학습
  • 직접 데이터 셋을 찾고, 문제 (target data) 정하기, 어떤 모델로 할지 선택(분류 or 회귀), 모델에 맞는 평가지표 선택

keyword :

  • 데이터 누수(leakage) :

    • 타겟 변수와 비슷한 변수가 훈련 데이터에 포함된 경우
    • 훈련데이터와 검증데이터를 완전히 분리하지 못했을 경우
  • 정규표현식 re

  • 평가지표 선택

  1. 분류 : 타겟 클래스 비율이 70퍼 이상 차이날 경우 (불균형) 정확도 뿐만 아니라, 정밀도, 재현율, ROC curve, AUC 등을 같이 사용하여야 함
  2. 회귀 : MAE, MSE, RMSE, MAPE, MPE
  • 불균형 클래스
  1. 분류 : scikit-learn의 분류기에는 class_weight같은 클래스의 밸런스를 맞춰주는 파라미터를 가지고 있음(가중치를 조절해주는 것), class_weight='balance', oversampling, undersampling
  2. 회귀 : 타겟 분포를 잘 살필 것. 정규분포의 모양일때 좋은 성능을 보임. mean 값이 왼쪽으로 치우친 경우 negatively skewed,mean 값이 오른쪽으로 치우친 경우 positively skewed, 이상치제거, 로그변환(np.log1p<->np.expm1)

참고 코드)

t = TransformedTargetRegressor(regressor=pipe,
                              func=np.log1p,
                              inverse_func=np.expm1)

func - 변환하고자 하는 함수 지정, 로그변환해준다
inverse_func - 다시 꺼낼때는 오리지널로 돌아간것이 나온다 (원본 데이터와 스케일이 맞춰진 데이터가 나온다는 뜻)

데이터 과학지의 실무 프로세스

  1. 비즈니스 문제
    • 실무자들과 대화를 통해 문제를 발견 (ex) 초콜릿바 평점 데이터 - 어떤 요소가 초콜릿의 평점에 영향을 미치는가 등..)
  2. 데이터 문제
    • 문제와 관련된 데이터를 발견
  3. 데이터 문제 해결
    • 데이터 처리, 시각화
    • 머신러닝/통계
  4. 비즈니스 문제 해결
    • 데이터 문제 해결을 통해 실무자들과 함께 해결

가설 세우는 법 예시

하이퍼 파라미터 가 다른 모델 중에 모델 a가 더 효율이 좋을 것 이다.
평가지표들중에 어느게 더 나을 것이다
등등
가설검정 실패해도 상관없으니 자신만의 논리를 펼쳐보자!

내일 할 일 :

  • n232 학습 (Data Wrangling)
  • 과제가 일찍 끝날 경우, 오늘 선택한 데이터셋 전처리와 간단한 모델 만들어서 돌려보기
profile
인문학도(였던 것)

0개의 댓글