내장된 예제 데이터 세트
분류나 회귀 연습용 예제 데이터
datasetx.load_boston()
datasets.load_breast_carcer()
datasets.load_diabetes()
datasets.load_digits()
datasets.load_iris()
fetch 계열의 명령은 데이터의 크기가 커서 패키지에 처음부터 저장돼 있지 않고 인터넷에서 내려받아
홈 디렉터리 아래의 scikit_learn_data 라는 서브 디렉터리에 저장한 후 추후 불러들이는 데이터.
최초 사용 시 인터넷에 연결돼 있지 않으면 사용할 수 없음
fetch_contype() : 회귀 분석용 토지 조사 자료
fetch_20newsgroups() : 뉴스 그룹 텍스트 자료
fetch_olivetti_faces() : 얼굴 이미지 자료
fetch_lfw_people() : 얼굴 이미지 자료
fetch_lfw_paris() : 얼굴 이미지 자료
fetch_rcv1() : 로이터 뉴스 말뭉치
fetch_mldata() : ML 웹사이트에서 다운로드
분류와 클러스터링을 위한 표본 데이터 생성기
datasets.make_classifications() : 분류를 위한 데이터 세트를 만듬 -높은 상관도, 불필요한 속성 등의 노이즈 효과를 위한 데이터를 무작위 생성
datasets.make_blobs() : 클러스터링을 위한 데이터 세트를 무작위로 생성해 줍니다. 군집 지정 개수에 따라 여러 가지 클러스터링을 위한 데이터 세트를 쉽게 만들어줌
등등
사이킷런에 내장된 dataset는 일반적으로 딕셔너리로 돼있음
키는 보통 data, target, target_name, feature_names, DESCR로 구성
data : 피처의 데이터 세트를 가리미
target: 분류 시 레이블 값, 회귀일 때에는 숫자 결괏값 데이터 세트.
target_names : 개별 레이블의 이름을 나타냄
feature_names : 피처의 이름
DESCR : 데이터 세트에 대한 설명과 각 피처의 설명
data, target은 넘파이 배열(ndarray ) 타입이며, target_names, feature_names는 넘파이 배열이나 파이썬 리스트임
DESCR은 스트링 타입
피처의 데이터 값을 반환받기 위해서는 내장 데이터 세트 API 호출 뒤 그 key 값을 지정.



정확도가 100%
위의 예측 결과가 100프로 정확한 이유는 이미 학습한 학습 데이터 세트를 기반으로 예측했기 때문.
모의고사를 보고 모의고사 문제와 똑같은 본고사 문제르 ㄹ푸는 격
예측을 수행하는 데이터 세트는 학습을 수행한 학습용 데이터 세트가 아닌 전용의 테스트 데이터 세트여야함
사이킷런의 train_test_split을 통해 원본 데이터 세트에서 학습 및 테스트 데이터 세트를 쉽게 분리할 수 있음
train_test_split()을 이용해 붓꽃 데이터세트를 학습 및 테스트 데이터 세트로 분리
train_test_split 첫번째 param : 피처 데이터 세트, 두번째 param 레이블 데이터 세트, 선택적으로 다음 param 입력받음
test_size : 전체 데이터에서 테스트 데이터 세트 크기를 얼마로 샘플링할건지 결정. 디폴트는 0.25 25%
train_size : 전체 데이터에서 학습용 데이터 세트 크리를 얼마로 샘플링할 것인가를 결정함 test_size parameter를 통상적으로 사용하기 때문에 잘 사용되지 않음
shuffle : 데이터를 분리하기 전에 데이터를 미리 섞을지 결정. default = True. 데이터를 분산시켜서 좀 더 효율적인 학습 및 테스트 데이터 세트를 만드는 데 사용
random_state : random_state는 호출할 때마다 동일한 학습/테스트용 데이터 세트를 생성하기 위해 주어지는 난수값.
train_test_split()은 호출 시 무작위로 데이터를 분리하므로 random_state를 지정하지 않으면 수행할 때마다 다른 학습/테스트용 데이터를 생성.
train_test_split()의 반환값은 튜플형태. 순차적으로
학습용 데이터의 피처 데이터 세트,
테스트용 데이터의 피처 데이터 세트,
학습용 데이터의 레이블 데이터 세트,
테스트용 데이터의 레이블 데이터 세트가 반환됨

피곤해서 여기까지!