Day59

김재현·2023년 8월 11일

JUPYTER/DL/ML

목록 보기
36/73
  • myOls를 불러오기 전까지는 분석 준비과정.
  • info를 사용해 데이터 수, 결측치 수를 확인할 수 있음.
  • Series 객체는 prettyprint 사용 불가하므로 DF으로 변경 후 사용
  • 독립변수가 몰리면 선정에 좋은 변수는 아님.
  • 탐색적 데이터 분석에서는 라벨링을 하지 않는게 더 편함.
  • 산점도그래프는 명목형 변수가 있으면 에러 발생.
  • 산점도그래프에서 특정한 패턴이 있으면 적절한 데이터가 아님 - 서로 상관성이 있다는 의미.
  • 분산분석은 카테고리가 지원되지 않음.
  • 분석에서 설명력, Durbin-Watson 값, VIF 값을 확인.
    • VIF란, Variance Inflation Factor의 약자로서, 분산 팽창 인수를 의미.
      이 값은 다중회귀분석에서 독립변수가 다중 공산성(Multicollnearity)의 문제를 갖고 있는지 판단하는 기준으로 주로 10보다 크면 그 독립변수는 다중공산성이 있다고 판단해 문제가 될 수 있으니 해댕 변수를 모형에서 배제하는 것이 일반적.
  • 도메인 처리 : 결과값에 영향을 안 주면서 변수값을 늘리는 방법.
    • 변수의 구간을 나눠 더미변수를 추가해 설명력을 높인다.
      ex) BMI 수치를 기준으로 정상, 과체중, 고도비만 값에서 정상 범위의 값들만 추출해 파생변수를 생성.

0개의 댓글