일단 후기..
생각보다 시간이 너무 촉박하고 막 나만 다 못한거같고.. 너무 힘들었다....
딥러닝 머신러닝까지 가는데 엄청 오래걸렸다
근데 딥러닝 결과도 이상하게 나와서 애먹었다 아직도 ing
어떡해~!!!!!!!!!!
다들 너무 똑똑하시다.. 나만 바보멍청이..
도움요청을 부끄러워하지 말아야겠다
#방법1
underscore = (df1 == '_').sum() / len(df1)
drop_columns = underscore[underscore >= o.5].index
df1.drop(drop_columns, axis=1, inplace=True)
#방법2 for문 사용
total = len(df1)
for col in df.columns:
underscore = (df[col] == '_').sum()
if (underscore / total) >= 0.5:
df1.drop([col], axis=1, inplace=True)
**4-8. df3에 대해 'age_itg_cd'의 null 값을 중앙값(median)으로 변경하고 데이터 타입을 정수(int)로 변경하세요. 데이터 처리 후 데이터프레임을 df4에 저장하세요.
df3['age_itg_cd'] = pd.to_numeric(df['age_itg_cd'], errors='coerce')
df3['age_itg_cd'].fillna(df3['age_itg_cd'].median(), inplace=True)
df3['age_itg_cd'].astype(int)
df4=df3
df4.info()
컬럼의 형변환을 할 때 object -> int로 바꾸려면 pd.to_numeric 하고 astype(int)로 변환해주기
pred = model.predict(x_test)
from sklearn.metrics import confusion_matrix
from sklearn.metrics import classification_report
confusion = confusion_matrix(y_test, pred)
report = classification_report(y_test, pred)
print(confusion)
print(report)
sns.heatmap(confusion, annot=True, fmt='d')
plt.show()
#모델 불러오기
from sklearn.linear_model import LogisticRegtessin #<-로지스틱 회귀
from sklearn.tree import DecisionTreeClassifier #<-DecistionTree
from sklearn.ensemble import RandomForestClassifier <-랜덤포레스트
from xgboost import XGBClassifier #<-XGboost
from lightgbm import LGBMClassifier #<-light GBM
#모듈 불러오기
import tensorflow as tf
from tensorflow.keras.model import Sequantial
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.callbacks import EarlyStopping, ModelCheckpoint
#keras쓰는 김에 원핫 인코딩할 때
from tensorflow.keras.utils import to_categorical
y_train = to_categorical(y_train)
y_test = to_categorical(y_test)
#편하게 이거 쓰자
#compile시 이진, 다중분류: loss='categorical_crossentropy'
#Dense 출력층 이진분류:1 , 다중분류:2
#validation_data = (x_test, y_test)