Chapter 1. 소개 - 2

김선재·2022년 7월 30일

machine learning python

파이썬 라이브러리를 활용한 머신러닝

목록 보기

2/3

💡 먼저 올린 Chapter 1.소개 -1과 이어지는 뒷 부분 내용
👉 https://velog.io/@ksj5738/Chapter-1.-%EC%86%8C%EA%B0%9C-1

1.3. 첫 번째 애프리케이션: 붓꽃의 품종 분류

간단한 머신러닝 애플리케이션을 훓어가면서 첫 번째 모델을 만들어본다
아마추어 식물학자가 들에서 발견한 붓꽃의 품종을 알고 싶다고 가정
( 아마추어 식물학자가 야생에서 채집한 붓꽃은 세 종류뿐이라고 가정 )
- 붓꽃의 꽃잎( petal )과 꽃받침( sepal )의 폭과 길이를 센티미터 단위로 측정하였다.
- 전문 식물학자가 setosa, versicolor, virginica 종으로 분류한 붓꽃의 측정 데이터도 가지고 있다.
- 어떤 품종인지 구분해놓은 측정 데이터를 이용해 새로 채집한 붓꽃의 품종을 예측하는 머신러닝 모델을 만든다.
붓꽃의 품종을 정확하게 분류한 데이터를 가지고 있으므로 이 문제는 지도 학습에 속한다.
이 경우 몇 가지 선택사항( 붓꽃의 품종 ) 중 하나를 선택하는 문제이기 때문에 분류 (Classification) 문제에 해당된다.
출력될 수 있는 값 (붓꽃의 종류 )들을 클래스( class )라고 한다.
데이터셋에 있는 붓꽃 데이터는 모두 세 클래스 중 하나에 속한다.
데이터 포인트 하나( 붓꽃 하나 )에 대한 기대 출력은 꽃의 품종이 되는데 이런 특정 데이터 포인트에 대한 출력을 레이블( label )이라고 한다.

1.3.1. 데이터 적재

머신러닝과 통계 분야에서 오래전부터 사용해온 붓꽃(iris) 데이터 셋을 사용한다.
해당 데이터 셋은 scikit-learn의 dataset 모듈에 포함되어 있다

from sklearn.datasets import load_iris

iris_dataset = load_iris()

# iris 객체는 파이썬 딕셔너리와 유사한 Bunch 클래스의 객체로 키와 값으로 구성
print('iris_dataset의 키: \n', iris_dataset.keys())

# DESCR 키에는 데이터셋에 대한 간략한 설명이 들어있다.
print(iris_dataset['DESCR'][:193] + '\n...')

~~>
iris_dataset의 키: 
 dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])
.. _iris_dataset:

Iris plants dataset
--------------------

**Data Set Characteristics:**

    :Number of Instances: 150 (50 in each of three classes)
    :Number of Attributes: 4 numeric, pre
...

# target_names의 값은 붓꽃 품종의 이름을 문자열 배열로 가지고 있음
print('타깃의 이름: ', iris_dataset['target_names'])

# feature_names의 값은 각 특성을 설명하는 문자열 리스트
print('특성의 이름: \n', iris_dataset['feature_names'])

# data는 꽃잎의 길이와 폭, 꽃받침의 길이와 폭을 수치 값으로 가지고 있는 Numpy 배열
print('data의 타입:',  type(iris_dataset['data']))

# data 배열의 행은 개개의 꽃이 되며 열은 각 꽃에서 구한 네 개의 측정치
print('data의 크기:', iris_dataset['data'].shape)

~~>
타깃의 이름:  ['setosa' 'versicolor' 'virginica']
특성의 이름: 
 ['sepal length (cm)', 'sepal width (cm)', 'petal length (cm)', 'petal width (cm)']
data의 타입: <class 'numpy.ndarray'>
data의 크기: (150, 4)

💡 이 배열은 150개의 붓꽃 데이터를 가지고 있다.
머신러닝에서 각 아이템은 샘플이라 하고 특성이라고 부른다

print('data의 처음 다섯 행: \n', iris_dataset['data'][:5])

~~>
data의 처음 다섯 행: 
 [[5.1 3.5 1.4 0.2]
 [4.9 3.  1.4 0.2]
 [4.7 3.2 1.3 0.2]
 [4.6 3.1 1.5 0.2]
 [5.  3.6 1.4 0.2]]

👉 이 데이터로부터 붓꽃의 꽃잎 폭은 모두 0.2cm이고, 첫 번째 꽃이 가장 긴 5.1cm의 꽃 받침을 가졌음을 알 수 있다.

# target 배열도 샘플 붗꽃의 품종을 담은 Numpy 배열
print('target의 타입:', type(iris_dataset['target']))

# target은 각 원소가 붓꽃 하나에 해당하는 1차원 배열
print('target의 크기:', iris_dataset['target'].shape)

# 붓꽃의 종류는 0에서 2까지의 정수로 기록
print('타깃:\n', iris_dataset['target'])

~~>
target의 타입: <class 'numpy.ndarray'>
target의 크기: (150,)
타깃:
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]

1.3.2. 성과 측정: 훈련 데이터와 테스트 데이터

모델의 예측을 신뢰할 수 있는지 알아야 하기 때문에 평가 목적을 위한 데이터를 분류해야한다.
모델을 만들 때 쓴 데이터는 평가 목적으로 사용할 수 없기 때문에 두 그룹으로 나눈다
- 머신러닝 모델을 만들 때 사용할 훈련 데이터 혹은 훈련 세트
- 모델이 얼마나 잘 작동하는지 측정하는데 사용하는 테스트 데이터, 테스트 세트 혹은 홀드아웃 세트
scikit-learn 라이브러리에 있는 train_test_split 함수를 사용

from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(iris_dataset['data'], iris_dataset['target'], random_state=0)

print('x_train 크기:', x_train.shape)
print('y_train 크기:', y_train.shape)
~~> 
x_train 크기: (112, 4)
y_train 크기: (112,)

print('x_test 크기:', x_test.shape)
print('y_test 크기:', y_test.shape)

~~>
x_test 크기: (38, 4)
y_test 크기: (38,)

1.3.3. 가장 먼저 할 일: 데이터 살펴보기

머신러닝 모델을 만들기 전에 머신러닝이 없이도 풀 수 있는 문제는 아닌지, 혹은 필요한 정보가 누락되지는 않았는지 데이터를 조사해보는 것이 좋다.
- 비정상적인 값이나 특이한 값을 찾을 수도 있고
- 데이터 중 일부는 센티미터가 아니고 인치로 되어있을 수 있다
- 데이터에 일관성이 없거나 이상한 값이 들어가 있을 수도 있다.
산점도(scatter plot) 시각화를 통해 데이터를 조사하는 방법이 있다.
하지만 그래프로는 3개 이상의 특성을 표현하기 어렵기 때문에 산점도 행렬을 사용할 수도 있다.

import pandas as pd

# x_train 데이터를 사용해서 데이터프레임을 만든다.
# 열의 이름은 iris_dataset.feature_names에 있는 문자열을 사용
iris_dataframe = pd.DataFrame(x_train, columns=iris_dataset.feature_names)

# 데이터프레임을 사용해 y_train에 따라 색으로 구분된 산점도 행렬을 만든다.
pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(15, 15), marker='o',
                          hist_kwds={'bins':20}, s=60, alpha=.8, cmap=mglearn.cm3)
~~>

1.3.4. 첫 번째 머신러닝 모델: K-최근접 이웃 알고리즘

새로운 데이터 포인트에 대한 예측이 필요하면 알고리즘은 새 데이터 포인트에서 가장 가까운 훈련 데이터 포인트를 찾는다.
그 후 찾은 훈련 데이터의 레이블을 새 데이터 포인트의 레이블로 지정한다.
K-최근접 이웃 알고리즘에서 K는 가장 가까운 이웃 하나가 아니라 훈련 데이터에서 새로운 데이터 포인트에 가장 가까운 K개의 이웃을 찾는다는 뜻이다.

from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=1)

knn.fit(x_train, y_train)

fit 메서드는 knn 객체 자체를 반환한다. 그래서 knn 객체가 문자열 형태로 출력됨
거의 모든 매개변수가 기본값이고 n_neighbors-1은 임의로 지정한 값

1.3.5. 예측하기

만든 모델을 사용해서 정확한 레이블을 모르는 새 데이터에 대해 예측을 해볼 수 있다.
임의의 붓꽃을 설정
- 꽃받침의 길이가 5cm, 폭이 2.9cm
- 꽃잎의 길이가 1cm, 폭이 0.2cm

import numpy as np 

# 측정값을 Numpy 배열, 샘플의 수(1)에 특성의 수(4)를 곱한 크기인 배열로 생성
x_new = np.array([[5, 2.9, 1, 0.2]])
print('x_new.shape:', x_new.shape)

~~>
x_new.shape: (1, 4)

# predict 메서드를 사용해 붓꽃 품종을 예측
prediction = knn.predict(x_new)

print('예측:', prediction)
print('예측한 타깃의 이름:', iris_dataset['target_names'][prediction])

~~>
예측: [0]
예측한 타깃의 이름: ['setosa']

✨✨ 모델은 setosa 품종으로 예측을 했지만 모델이 정확한 판단을 한 것인지 아직 알 수 없다.

1.3.6. 모델 평가하기

테스트 데이터에 있는 붓꽃의 품종을 예측하고 실제 품종과 비교해 얼마나 많은 붓꽃 품종을 맞는 답으로 예측했는지 정확도를 계산해 성능을 평가한다.

y_pred = knn.predict(x_test)
print('테스트 세트에 대한 예측값: \n', y_pred)

print('테스트 세트의 정확도: {:.2f}'.format(np.mean(y_pred == y_test)))

# knn 객체의 score 메서드를 통한 정확도 계산
print('테스트 세트의 정확도: {:.2f}'.format(knn.score(x_test, y_test)))

~~>
테스트 세트에 대한 예측값: 
 [2 1 0 2 0 2 0 1 1 1 2 1 1 1 1 0 1 1 0 0 2 1 0 0 2 0 0 1 1 0 2 1 0 2 2 1 0
 2]
테스트 세트의 정확도: 0.97
테스트 세트의 정확도: 0.97

김선재

data science!!, data analyst!! ///// hello world

이전 포스트

Chapter 1. 소개 - 1

다음 포스트