
'타이타닉 생존 여부'에 관한 데이터를 시각화해보고 간단히 분석한다.
pandas, LogisticRegression, DecisionTreeClassifier 불러오기
drive.mount로, 드라이브에 올려둔 파일에 접근 후, 데이터 불러오기
데이터를 분석하기 전에 기본적인 정보와 특징을 탐색하자.
.head()로 훈련 세트 앞부분 미리보기

.tail()로 훈련 세트 뒷부분도 확인 가능
.shape로 데이터들의 크기(형태) 확인
.info()로 데이터셋의 기본적인 정보 확인 (⭐결측치 체크가 주 목적!!)
.describe()로 데이터의 기술통계량(각 column을 대표할 수 있는 통계값) 확인
.value_counts()로 범주형 자료의 빈도 확인
.unique()로 (고유값별 개수 없이) 고유값 종류만 확인할 수도 있음.
.groupby()로 원하는 그룹별 통계량을 구해볼 수 있음.
시각화를 통해 데이터를 좀 더 다각도로 살펴보자.
groupby의 결과물을 보여줄 때 좋음 (ex. 좌석 등급별로 생존율이 어떠한가)
.plot(kind = "bar")을 붙이면 막대그래프를 그려줌. (DataFrame 말고)
.plot(kind = 'hist')을 붙이면 막대그래프를 그려줌.
bins, grid 등의 매개변수로 세부 설정 가능함.
.plot(x, y, kind = 'scatter')을 붙이면 그려줌.
데이터를 살펴봤으니, 이제 지저분한 부분을 깔끔하게 다듬어주자.
.isna()로 결측치 여부를 확인 가능 (결측이면 T, 아니면 F)
.sum()을 활용해, column별 결측치 개수를 파악할 수 있음!
.fillna() 써서 하나의 값으로 모두 채워넣기!.mean() 혹은 중앙값.median()을 사용함.

.map() 함수를 사용함.


이제 데이터를 집어넣으면 생존여부를 예측해주는 모델을 만들어 보자.


모든 것이 준비되었다. 모델 객체에 우리가 가진 데이터를 학습시키고 그 성능을 보자.
.fit()으로 각 모델을 학습시킴.
.predict()
.predict_proba()를 써서, 단순 여부가 아니라 확률로 출력할 수도 있음!


.to_csv()로 제출할 데이터를 파일로 내보냄(저장함).

➕ 또 다른 데이터 전처리 과정