-상관관계 파악시 corr()를 이용해서 다른 컬럼과 상관관계가 높은지를 파악하고 답에 대해서 쓸모가 있을지 판단
-결측치가 있을때 train&test를 pd.concat() 이용해서 합치고 접근해봐도 괜찮음
-feature/target을 살피기
분류용 선형모델 :
#1.문제정의 #와인 정보를 토대로 화이트 / 레드 와인을 구분해보자 #2.데이터수집 import pandas as pd wine=pd.read_csv("data/wine.csv") wine.head() lumns wine.columns # kind = 와인의 종류 : 0 red wine, 1 white wine #3.데이터전처리 이미 마친상태 #4.탐색적 데이터 분석(EDA) #5.모델 선택 및 하이퍼 파라미터 튜닝 # 데이터 분리 X = wine.iloc[:,:-1] #문제 데이터 y = wine.iloc[:,-1] #정답 데이터 , from sklearn.model_selection import train_test_split X_train, X_test , y_train, y_test = train_test_split(X,y,test_size=0.3, random_state=42) hape X_train.shape 5 # 선형 분류 > LogisticRegression(로지스틱회귀) from sklearn.linear_model import LogisticRegression lr = LogisticRegression(penalty='l2', # 규제 (L1, L2) max_iter=500, # 최대 학습 횟수 C = 0.1, # 규제 강도의 역수 verbose=1) #6.학습 lr lr.fit(X_train,y_train) #7.평가 print(lr.score(X_train,y_train)) print(lr.score(X_test,y_test)) # svm(Support vector machine) from sklearn.svm import LinearSVC svm = LinearSVC(C=0.1) svm.fit(X_train,y_train) print(svm.score(X_train,y_train)) print(svm.score(X_test,y_test))