사용한 데이터셋 : Scikit-learn toy datasets
1. 모듈 import
2. 데이터 준비 (메서드 지정)
3. 데이터 살펴보기
4. train, test 데이터 분리
5. 모델 학습
6. 모델 평가
PROJECT : load_digits/load_wine/load_breast_cancer
Logistic Regression 실행 시 STOP: TOTAL NO. of ITERATIONS REACHED LIMIT. 오류 발생 (실행에 지장 x)
5가지 모델을 한번에 평가하는 코드를 구현하는 것에 실패 (각각 정확도 비교)
trian, test 데이터 분리시 random_state=7과, decision tree와 random forest 모델학습시 random_state=32의 랜덤 숫자 지정 의미가 궁금
랜덤의 값은 내가 임의적으로 적용해도 되는건지?(그렇게 된다면, 모든 사람들이 같은 데이터를 가지고 프로젝트를 진행해도 결괏값에 오차가 있을 것 같음)
random state이 "train데이터와 test데이터 분리시 적용되는 랜덤성"으로 알고있는데, 이론에 대한 명확한 정의 필요