기본 라이브러리 임포트
#전처리
from sklearn import preprocessing
from sklearn.model_selection import train_test_split
from sklearn import tree
#성능평가
from sklearn import metrics
import pandas as pd
import numpy as np
# 한글폰트 패치
import matplotlib as mpl
import matplotlib.pyplot as plt
%config InlineBackend.figure_format = 'retina'
!apt -qq -y install fonts-nanum
import matplotlib.font_manager as fm
fontpath = '/usr/share/fonts/truetype/nanum/NanumBarunGothic.ttf'
font = fm.FontProperties(fname=fontpath, size=9)
plt.rc('font', family='NanumBarunGothic')
mpl.font_manager._rebuild()
데이터 준비하기
# UCI ML Repository 제공하는 Breast Cancer 데이터셋 가져오기
# https://archive.ics.uci.edu/ml/machine-learning-databases//breast-cancer-wisconsin/
uci_path = 'https://archive.ics.uci.edu/ml/machine-learning-databases/\
breast-cancer-wisconsin/breast-cancer-wisconsin.data'
^ 이를 확인하면 열 이름을 지정해줘야 한다는 것을 볼 수 있음
^ 콜럼 이름 지정해줌
^ bare 저 친구가 object 형식임.
^위에 object 인 친구 봤더니 물음표가 들어가 있음.
^ object 를 int 타입으로 변경하는 방법
^ 데이터 분석하기 (실수! X축에 class를 없앤 것처럼 id 값도 지워줘야 했다)
^ 독립변수 데이터를 정규화
^ 학습, 테스트 데이터 분리
^ 실수 한 부분 없애주고 다시 !
^DecisionTree 분류 모델 설정
^ 모델 예측하기
^ 모델 성능 평가
^ 4번 모델이 좋은 코드라고 할 수 있다.
^ 결정 트리 그래프 일단 그려져서 옆에 새 파일이 생겼다. (tree.dot 파일)
^ 위의 저장된 tree.dot 파일을 열어 그래프 그려주기.