“사이킷런”은 다양한 머신ㅁ러닝 알고리즘이 구현되어 있는 오픈 소스 패키지이다.
그렇기 때문에 내부 작동 과정을 하나하나 확인할 수 있다.
scikit-learn에서는 아래의 주요 기능을 갖는 객체를 제공
제공하는 머신러닝 모델 및 알고리즘은 아래 객체의 메서드를 전부 혹은 일부를 사용
이는 통일된 API 호출 시스템을 구성해 사용자가 손쉽게 사용할 수 있는 인터페이스를 제공하기 위함
Estimator (학습수행기[추정기])
Predictor (예측기)
Transformer (변환기)
Model (모델)
!
from sklearn.datasets import make_regression
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
X, y = make_regression(n_samples=100, n_features=1,
noise=0.4, random_state=0)
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)
scaler = 데이터의 분포를 다른 분포로 바꿔준다.X_scaled이후 처음에 만든 데이터 X를 fit_transform메소드를 활용해 Transformer해준다.model = LinearRegression()
model.fit(X_scaled, y)
LinearRegression() 는 Estimator 라는 객체를 내포하고 있다. .fit(데이터)를 넣어주면 학습이 된다.LinearRegression() 가 아니더라도 [특정모델.fit](http://특정모델.fit) 을 해주면 학습이 됨.y_pred = model.predick(X_scaled)
model.predick(X_scaled) : X_scaled모델에 대한 예측값을 출력하게 된다.score = model.score(X_scaled, y)
mse = mean_squared_error(y, y_pred)
model.score() : 만든 모델에 대하여 점수를 매긴다.파이프라인이란?
머신러닝 워크플로우의 여러 단계를 하나의 수준으로 연결하는 작업.
결과물의 형태로 나타난다.
파이프라인의 경우 완성 후 수정이 힘들기 때문에
보통 모델을 완성 후 마지막으로 파이프라인을 만든다고 한다.
Pipeline 메소드를 이용해서 아래와 같이 만들 수 있다(인자에는 키, 벨류 가 들어감)

make_pipeline 메소드로도 만들 수 있다.(인자에는 벨류가 들어감)

Pipeline의 가장 마지막을 제외하고는 모두 변환기(transformer)여야 함
마지막은 추정기(estimator), 예측기(predictor), 변환기(transformer)가 올 수 있음
마지막 단계의 컴포넌트는 파이프라인의 최종 메서드에 영향을 미침
Scikit-learn 에서 제공하는 사용 흐름도!

머신러닝을 개발할때 참고하면 좋다고 한다.
START부분에서부터 시작!
Python에서 다차원 배열 연산, 행렬 연산, 고수준의 수학 함수, 난수 생성과 같은 과학적인 계산을 위한 패키지
• 데이터 분석, 머신러닝의 기반이 되는 필수 라이브러리
• 특히, scikit-learn에서 사용하는 기본 데이터 구조가 Numpy의 배열(array)
Python에서 사용하는 패키지로 데이터 분석 기능을 제공하는 패키지
Python에서 사용하는 과학 계산용 그래프 시각화 오픈소스 라이브러리