- myOls를 불러오기 전까지는 분석 준비과정.
- info를 사용해 데이터 수, 결측치 수를 확인할 수 있음.
- Series 객체는 prettyprint 사용 불가하므로 DF으로 변경 후 사용
- 독립변수가 몰리면 선정에 좋은 변수는 아님.
- 탐색적 데이터 분석에서는 라벨링을 하지 않는게 더 편함.
- 산점도그래프는 명목형 변수가 있으면 에러 발생.
- 산점도그래프에서 특정한 패턴이 있으면 적절한 데이터가 아님 - 서로 상관성이 있다는 의미.
- 분산분석은 카테고리가 지원되지 않음.
- 분석에서 설명력, Durbin-Watson 값, VIF 값을 확인.
- VIF란, Variance Inflation Factor의 약자로서, 분산 팽창 인수를 의미.
이 값은 다중회귀분석에서 독립변수가 다중 공산성(Multicollnearity)의 문제를 갖고 있는지 판단하는 기준으로 주로 10보다 크면 그 독립변수는 다중공산성이 있다고 판단해 문제가 될 수 있으니 해댕 변수를 모형에서 배제하는 것이 일반적.
- 도메인 처리 : 결과값에 영향을 안 주면서 변수값을 늘리는 방법.
- 변수의 구간을 나눠 더미변수를 추가해 설명력을 높인다.
ex) BMI 수치를 기준으로 정상, 과체중, 고도비만 값에서 정상 범위의 값들만 추출해 파생변수를 생성.