scikit-learn 데이터 셋 모듈

Khyst·2021년 1월 23일
0

                         내장된 Datasets 모듈

API명설명
datasets.load_boston()Regression, 미국 보스턴의 집 피처들과 가격에 대한 데이터세트
datasets.load_breast_cancer()Classification, 위스콘신 유방암 피처들과 악성/음성 레이블 데이터세트
datasets.load_diabets()Regression, 당뇨 데이터세트
datasets.load_digit()Classification, 0에서 9까지 숫자의 이미지 픽셀 데이터 세트
datasets.load_iris()Classification, 붓꽃에 대한 피처를 가진 데이터 세트

fetch 계열의 명령은 데이터 크기가 커서 패키지에 처음부터 저장되어 있지 않고, 인터넷에서 내려받아 홈 디렉터리 아래의 scikit_learn_data라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터이다.

  • fetch_covtype() : for Regression, 토지 조사 자료
  • fetch_20newsgroup() : 뉴스 그룹 텍스트 자료
  • fetch_olivetti_faces() : 얼굴 이미지 자료
  • fetch_lfw_people() : 얼굴 이미지 자료
  • fetch_lfw_pairs() : 얼굴 이미지 자료
  • fetch_rcv1() : 로이터 뉴스 말뭉치

load 데이터셋의 구성요소

  • data : 피처의 데이터 세트를 가리킨다, (즉 트레이닝을 하려는 요소 f(x)에서 x라고 보자)
  • target : 분류시 레이블 값, 회귀일때는 숫자 결과값 데이터 세트 (즉 결과값이니 f(x)에서는 f(x) 그 자체, y라고 보자)
  • target_names : 레이블 각각의 이름을 나타낸다
  • feature_names : 피처의 이름을 나타낸다
  • DESCR : 데이터 세트에 대한 설명과 각 피처의 설명을 나타낸다.
profile
DEVELOPE_FRESHMAN

0개의 댓글