데이터 훈련(train)/검증(validation)/테스트(test)로 나누는게 매우 중요함
- 훈련(train): 모델을 핏팅/학습하는데 사용함
- 검증(validation): 모델이 너무 훈련데이터에 잘맞아서 테스트 데이터의 성능이 안나오기때문에 과적합 확인 후 다시 모델링 또는 모델 수정할 때 사용하는 검증 데이터
즉, 평가 > 하이퍼파라미터를 조절, 과대/소적합확인, 모델비교선택 > 최종모델 선택- 테스트: 마지막으로 사용, 즉 검증까지 완료하고 모델을 테스트하기 위한 것
주의할 점) 테스트에서 훈련/검증에서 사용되면 안됨
시계열 데이터는 데이터를 어떻게 분리시킬까요?
시계열 데이터 분리 시 시간축 유지시켜야합니다.
- 훈련셋(Training set): 과거의 데이터
- 검증셋(Validation set): 현재의 데이터
- 테스트셋(Test set): 미래의 데이터
캐글에서는 훈련/테스트 분리해서 제공하고 테스트는 레이블이 없는 상태로 받음
그래서 테스트 예측치는 캐글사이트에 올려야 성능을 알 수 있는데 예측성능을 다 안보여준다. 결국은 우리가 따로 validation하고 완전히 일반화 된 모델을 캐글에 올려야 한다.
(자료가 영어였어서 그대로 가져옴, 내가 읽기 편하게 일부 수정함)
1. 로지스틱 회귀(분류)
- true, false로(0,1) 나누고 그래프가 S shape(시그모이드 함수 그래프)모양이다.
- 최대가능도 추정량(MLE)을 이용한다.
- 분류문제를 풀때 사용하는 지도학습이다.
- 분류: 클래스 예측(1,0이진분류, abc다중분류)
ex) 별점1~10인것도 왜냐면 회귀로 풀면 1.234, 3.245 이렇게 소수로 표시되기때문에- 분류문제 기준모델: 타겟변수에서 가장 빈번하게 나타나는 변수
- 분류문제 평가표: 정확도(accuracy)
2. 선형회귀(회귀)
- X,Y과 관계가 선으로 그려지고 독립변수에 따라 종속변수를 예측
- 회귀: 연속형, 연속적인 값= 집값
오즈
확률이 1이면 오즈무한대
확률이 0이면 오즈 영
standard scaler
범위가 큰 칼럼과 범위가 작은 컬럼과 비교가 어려움 그래서 특성의 척도를 맞춰서 비교를 하려고
로지스틱 회귀 계수 분석
x 한 단위가 커질 수록 오즈가 변한다.