from sklearn.datasets import load_iris
# sklearn.datasets에서 기본적으로 제공하는 데이터셋이다
from sklearn.tree import DecisionTreeClassifier
# ML을 위한 sklearn MODEL Algorithm이다
from sklearn.model_selection import train_test_split
# datasets을 분리및 검증 혹은 파라미터를 튜닝한다.
from pandas as pd
# PANDAS => 데이터 분석을 도와주는 라이브러리이다
iris_dataset = load_iris()
data = iris_dataset.data # feature만으로 된 데이터를 numpy형태로 저장
target = iris_dataset.target # 레이블(결정 값) 데이터를 numpy형태로 저장
# target = iris_dataset['target'] # 위 코드와 같은 기능
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
# iris_df <= 데이터 분석을 위한 DataFrame객체 생성
# columns(열)은 feature_names(특성_이름)으로 이루어져 있다.
iris_df['label'] = iris.target
# 각 꽃에 대한 정보에다 레이블(결과값)정보 추가
iris_df.head(3)
x_train, x_test, y_train, y_test = train_test.split(iris_data, iris_label, test_size=0.2, random_state=11)
# test_size = 0.2 => train dataset 0.8, test dataset 0.2
# One of the Machinel Learning Classification Algorithm, Decision Tree Classifier Generating
decision_tree_classifier = DecisionTreeClassifier(random_state=11)
# training
decision_tree_classifier.fit(x_train, y_train)
# predict Test datasets on trained DecisionTreeClassifier Object
pred = decision_tree_classifier.predict(x_test)
from sklearn.metrix import accuracy_score
print("예측 정확도: {0:.4f}".format(accuracy_score(y_test, pred)))
예측정확도 : 0.9333