CHAPTER 2 데이터 적재

Zoey·2021년 5월 22일
0
post-thumbnail

2.0 소개

2.1 샘플 데이터셋 적재하기

사이킷런에 포함된 데이터셋 사용하기

from sklearn import datasets

digits = datasets.load_digits()
# 숫자 데이터셋을 적재

features = digits.data
# 특성 행렬 만들기

target = digits.target
# 타깃 벡터 만들기

features[0]
# array([ 0., 0., 5., 13., 9., 1., 0., 0., 0., 0., 13., 15., 10.,
		 15., 5., 0., 0., 3., 15., 2., 0., 11., 8., 0., 0., 4.,
         12., 0., 0., 8., 8., 0., 0., 0., 5., 8., 0., 0., 9., 8.,
         0., 0., 4., 11., 0., 1., 12., 7., 0., 0., 2., 14., 5.,
         10., 12., 0., 0., 0., 6., 13., 10., 0., 0., 0.])

사이킷런에서 자주 사용하는 데이터셋 = 토이 데이터셋

load_boston
; 보스턴 주택 가격에 대한 503개의 샘플. 회귀 알고리즘을 배울 때 사용하기 좋은 데이터셋

load_iris
; 150개의 붓꽃 샘플 치수. 분류 알고리즘을 배울 때 사용하기 좋다.

load_digits
; 손으로 쓴 숫자 이미지 1,979개. 이미지 분류 작업을 배울 때 좋다.

참고) sklearn.datasets 모듈 아래 함수들은 파이썬 딕셔너리와 유사한 Bunch 클래스 객체를 반환한다.

digits.keys()
# dict_keys(['data', 'target', 'target_names', 'images', 'DESCR'])

digits['DESCR'][:70]
# '.. _digits_dataset:\n\nOptical recognition of handwritten digits dataset'
# DESCR키는 데이터셋에 대한 설명을 담고 있음

이 함수들의 파라미터인 return_X_y를 True로 설정하면 Bunch 클래스 객체가 아니라 특성 X와 타깃 y 배열을 반환하며, 디폴트 값을 False이다.
특별히 load_digits 함수는 필요한 숫자 개수를 지정할 수 있는 n_class 파라미터를 추가로 제공한다.

0개의 댓글