[딥러닝 Express] Chapter 03. 머신러닝의 기초 - (2)

배규리·2024년 1월 5일

AI KNN anaconda matplotlib pandas sklearn 딥러닝 머신러닝 파이썬

AI 기초

목록 보기

5/32

자 그럼 이번에는 이미지 분류를 할 것이다!~😎

5. 필기체 숫자 이미지를 분류해보자.

아래의 라이브러리를 추가 설치해주어 이미지를 불러올 수 있게 해주자!

pip install pandas
pip install matplotlib

이번에 활용할 필기체 숫자 이미지는 미국의 MNIST가 배포하는 데이터셋이다.
해당 데이터셋의 숫자들은 28*28의 2차원 이미지로 표현된다.
즉 784개의 픽셀로 이루어져 있다.

데이터셋 확인

아래와 같은 필기체의 숫자 이미지가 담겨져 있다.

import matplotlib.pyplot as plt
from sklearn import datasets, metrics
from sklearn.model_selection import train_test_split

# MNIST 안에 저장된 숫자 이미지 데이터셋 불러옴
digits = datasets.load_digits()
# 이미지 띄우기
plt.imshow(digits.images[0], cmap = plt.cm.gray_r, interpolation = 'nearest')

그러나 우리는 2차원 이미지 배열이 아닌 1차원 배열을 사용할 것이다!
이 과정을 평탄화(flatten)라고 한다.
평탄화 하는 이유는 일반적인 머신러닝 알고리즘은 특징들을 1차원으로만 받기때문이다.

따라서 (8, 8) 형상을 (64,1) 형상으로 바꾸어줘야 한다는 것이다.
이를 위해 아래와 같은 코드를 추가해준다.

n_sample = len(digits.images) # 이미지 개수
data = digits.images.reshape((n_sample, -1))

훈련 데이터와 테스트 데이터 분할

훈련 데이터와 테스트 데이터를 8:2 비율로 분할해주었다.

# 훈련 데이터와 테스트 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(data, digits.target, test_size = 0.2)

모델 선택 및 학습/평가

이번에도 이전과 같이 KNN 알고리즘을 적용할 것이다.

# 모델 학습
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors = 6)
knn.fit(X_train, y_train)

# 모델 평가
y_pred = knn.predict(X_test)
scores = metrics.accuracy_score(y_test, y_pred)
print(scores)