scikit-learn

ricecakeblack·2023년 10월 17일
0

GoogleCloud

목록 보기
13/20

  • 선형회귀(회귀 = 숫자 예측): 과거의 데이터를 복귀하고, 모델링하고 앞으로 데이터를 만들어줌

    y = 정답
    y^ or y'는 추정값(예측값)

  • 분류 :

Toy datasets
https://scikit-learn.org/stable/datasets/toy_dataset.html

뒤에 regression, classificatioin으로 쓰이는 함수 구분

선형회귀문제(귀뚜라미)
https://velog.io/@jhbale11/%EA%B5%AC%EA%B8%80-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EB%8B%A8%EA%B8%B0%EC%A7%91%EC%A4%91%EA%B3%BC%EC%A0%95-2%EA%B0%95

reshape

노이즈값 넣기

loss(cost) 값 = y - y'


캐글 타이타닉
https://www.kaggle.com/competitions/titanic

타이타닉으로 전처리 연습

함수 train_test_split

  • 데이터 셋을 쪼개서 시험용 데이터와 train 데이터로 나눠줌 validation set에 할당할 비율 (20% -> 0.2)

random_state

sklearn.impute: Impute

LabelEncoder

문자를 수치로 변환
from sklearn.preprocessing import LabelEncoder

0개의 댓글