머신러닝의 모든 것 ( Section : 6) 단순 선형 회귀

이정빈·2023년 8월 3일
0

단순 선형 회귀란?

y = b(0) + b(1) * X(1)
이런 식을 보았을 것이다.
이 식은 단순 선형 회귀를 나타내는 식인데, y는 구하려는 값인 종속 변수가 되고, input인 X에 따라 결과가 달라지는 독립변수이다.

이 선형은 train 데이터를 거쳐서 최적선으로 표현된다

y-y(i)의 제곱의 합이 최적석이다.

1. 라이브러리 가져오기

2. 데이터 셋 가져오기

3. Train, Test 데이터 셋 분류하기

템플릿을 사용하여 그대로 가져오고 데이터 셋의 이름만 변경해주면 된다.

데이터셋의 모양이며 1열은 변수, 2열은 결정 벡터이다.
즉, 연차에 따라 선형으로 연봉이 증가하는 데이터셋임.

데이터 셋의 이름만 변경해주었다.

4. Train set으로 단순 선형 회귀 모델 훈련시키기

나의 첫 머신러닝 모델이다.
머신러닝 모델을 훈련시키기 위해 데이터를 입력해야 하는데, 이 데이터는 선형 데이터이기 때문에 선형 회귀 라이브러리를 가져왔다.

from sklearn.linear_model import LinearRegression

선형 모델이라는 특정 모듈로 접근한 다음, 선형 모델 모듈에서 선형 회귀라는 특정 클래스를 호출한다.
즉, 머신러닝이 단순 선형 회귀 모델을 목표로하기 위함이다.

regressor=LinearRegression()

선형 회귀 클래스의 객체가 되고, 선형 휘귀 모델 그 자체이다.
즉, 내가 구현한 모델이라고 생각하면 된다.

regressor.fit(X_train,y_train)

내가 구현한 모델을 이제 훈련을 시킬 차례이다.
훈련 시킬 데이터는 앞에서 분리했다.
fit 메소드를 통해 X_train, y_train으로 모델을 훈련시킬 수 있다.

5. Test set 결과 예측하기

y_pred=regressor.predict(X_test)

y_pred는 예측임금이다.
모델은 X_test값을 예측해서 y_pred를 생성해낸다.
라이브러리의 큰 장점이다. 매우 편리하다.

6. Train set 결과 보기

그래프나 차트를 보기 위해선 matplotlib를 사용해야한다.

plt.scatter(X_train,y_train,color='red')

X_train과 Y_train을 2D상에서 빨간 점으로 볼 수 있다.
각 점에 대응되도록..

plt.plot(X_train,regressor.predict(X_train),color='blue')

다음 단계는 회귀선을 그리는 건데 plot함수를 이용한다.
1. 예측임금의 첫 좌표 > X_train
2. y좌표 입력 > y_pred

즉, 회귀선을 그릴 때, x값과 y값은 각각 훈련 X, X를 통해 나온 모델이다.

7. Test set 결과 보기

중요한 점은 회귀선을 그릴때, 실수로 X_test,y_test에 맞게 고치는 것이다.
우리가 모델을 훈련시킬 때,train값으로 했기 때문에 회귀선도 Train에 맞는 값으로 나온 선으로 표현해야 한다.

0개의 댓글