'타이타닉 생존 여부'에 관한 데이터를 시각화해보고 간단히 분석한다.
pandas
, LogisticRegression
, DecisionTreeClassifier
불러오기drive.mount
로, 드라이브에 올려둔 파일에 접근 후, 데이터 불러오기데이터를 분석하기 전에 기본적인 정보와 특징을 탐색하자.
.head()
로 훈련 세트 앞부분 미리보기.tail()
로 훈련 세트 뒷부분도 확인 가능.shape
로 데이터들의 크기(형태) 확인.info()
로 데이터셋의 기본적인 정보 확인 (⭐결측치 체크가 주 목적!!).describe()
로 데이터의 기술통계량(각 column을 대표할 수 있는 통계값) 확인.value_counts()
로 범주형 자료의 빈도 확인.unique()
로 (고유값별 개수 없이) 고유값 종류만 확인할 수도 있음..groupby()
로 원하는 그룹별 통계량을 구해볼 수 있음.시각화를 통해 데이터를 좀 더 다각도로 살펴보자.
groupby
의 결과물을 보여줄 때 좋음 (ex. 좌석 등급별
로 생존율이 어떠한가).plot(kind = "bar")
을 붙이면 막대그래프를 그려줌. (DataFrame 말고).plot(kind = 'hist')
을 붙이면 막대그래프를 그려줌.bins
, grid
등의 매개변수로 세부 설정 가능함..plot(x, y, kind = 'scatter')
을 붙이면 그려줌.데이터를 살펴봤으니, 이제 지저분한 부분을 깔끔하게 다듬어주자.
.isna()
로 결측치 여부를 확인 가능 (결측이면 T, 아니면 F).sum()
을 활용해, column별 결측치 개수를 파악할 수 있음!.fillna()
써서 하나의 값으로 모두 채워넣기!.mean()
혹은 중앙값.median()
을 사용함..map()
함수를 사용함.이제 데이터를 집어넣으면 생존여부를 예측해주는 모델을 만들어 보자.
모든 것이 준비되었다. 모델 객체에 우리가 가진 데이터를 학습시키고 그 성능을 보자.
.fit()
으로 각 모델을 학습시킴..predict()
.predict_proba()
를 써서, 단순 여부가 아니라 확률로 출력할 수도 있음!.to_csv()
로 제출할 데이터를 파일로 내보냄(저장함).➕ 또 다른 데이터 전처리 과정