📒 [ TIL ] 2022.05.12_18일차 # 머신러닝 강의학습(1)

문명주·2022년 5월 12일

TIL

스파르타코딩클럽-AI웹개발-2회차

목록 보기

18/82

[ 2022-05-12 (목) 오늘의 TIL ]

[ Today Learn ]

머신러닝의 기초개념
선형회귀 및 다중선형회귀
Colab과 Kaggle을 이용한 실습

✏️ 내가 배운것, 얻은것

❓ 머신러닝이란 ?

인공지능의 한 분야로 컴퓨터가 학습할 수 있도록 하는 알고리즘과 기술을 개발하는 분야

머신러닝은 크게 3가지로 분류할 수 있다.

지도학습
정답을 알려주면서 학습시키는 방법
비지도학습
정답을 알려주지 않고 군집화(Clustering)하는 방법
강화학습
주어진 데이터없이 실행과 오류를 반복하면서 학습하는 방법 (ex.알파고)

머신러닝에서 문제를 풀때, 해답을 내는 방법은 크게 두가지가 있다.

* 회귀 (Regression)
여러개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법

🧩 적용 예시

🔎 사람의 얼굴 사진을 보고 몇 살인지 예측하는 문제
   input값: 얼굴사진 
   output값: 예측한 나이

여기서 나이의 값은 연속적(1세~n세,,)으로 연속적인 소수점으로 예측하여 풀수있다.

* 분류 (Classification)
주어진 데이터를 클래스 별로 구별해 다양한 분류 알고리즘을 통해서 학습시켜 모델링하는 기법

🧩 적용 예시 ( 이진분류 )

🔎 대학교 시험 전 날 공부한 시간을 가지고 해당 과목의 이수 여부(Pass or fail)를 예측하는 문제
   input값: 공부한 시간  
   output값: 이수여부(Pass or Fail)

여기서 이수여부를 0,1이라는 이진클래스(Binary class)로 나눌 수 있고, 이런 경우를 이진 분류(Binary classification)라고 부른다.

🧩 적용 예시 ( 다중분류 )

🔎 대학교 시험 전 날 공부한 시간을 가지고 해당 과목의 성적(A, B, C, D, F)을 예측하는 문제
   input값: 공부한 시간  
   output값: 과목의 성적(A,B,C,D,F)

여기서는 5개의 output값이라 5개의 클래스로 나눌 수 있기때문에 이런 경우를 다중 분류(Multi-class classification)라고 부른다.

❓ 선형 회귀란 ?

데이터를 놓고 가장 잘 설명할 수 있는 선을 찾아 변수 사이의 선형적인(=직선적인) 관계를 모델링 한 것

선형모델의 수식 (직선 = 1차함수)
```
H(x) = Wx + b
```

여기서 정확한 값을 예측하기 위해서는 내가 만든 임의의 직선(가설)과 점(정답)의 거리가 최대한 가까워져야한다. 즉, cost(손실함수)가 낮아져야한다. 또한 만약 입력값이 2개 이상이 되는 문제를 선형회귀로 풀고자 한다면 다중선형회귀를 적용한다.

❓ 경사 하강법이란 ?

함수의 기울기(경사)를 구하여 기울기가 낮은 쪽으로 계속 이동시켜 극값(최적값)에 이를 때까지 반복하여 학습하는 방법

여기서 한칸씩 전진하는 단위를 Learning rate라고 부르는데 머신러닝 모델이 학습을 잘하기 위해서는 적당한 Learning rate를 찾는 것이 중요하다. Learning rate가 작으면 최소점을 찾기까지 시간이 오래걸리고 , 그렇다고 반대로 너무 크다면 최소점을 지나 진동하다가 Overshooting 될 수도 있다.

❓ 데이터셋 분할

Training set (학습 데이터셋)
머신러닝 모델을 학습시키는 용도로 전체 데이터셋의 약 80% 정도를 차지한다.
Validation set (검증 데이터셋)
머신러닝 모델의 성능을 검증하고 튜닝하는 지표의 용도로 정답 라벨이 있고, 모델의 성능에 영향을 미치지는 않으며 손실 함수, Optimizer 등을 바꾸면서 모델을 검증하는 용도로 사용한다.
Test set (평가 데이터셋)
정답 라벨이 없는 실제 환경에서의 평가 데이터셋

🧩 Kaggle을 활용한 선형회귀 적용예시

import os # 환경변수 지정하기 
os.environ['KAGGLE_USERNAME'] = '[내_캐글_username]' # username
os.environ['KAGGLE_KEY'] = '[내_캐글_key]' # key

    ```bash # 원하는 데이터셋의 API 실행하기고 압축풀기
    !unzip /content/advertising-dataset.zip
    ```
    !unzip /content/advertising-dataset.zip
    
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense
from tensorflow.keras.optimizers import Adam, SGD
import numpy as np
import pandas as pd # csv파일을 읽을때 사용
import matplotlib.pyplot as plt # 그래프를 그릴때 사용 
import seaborn as sns # 그래프를 그릴때 사용 
from sklearn.model_selection import train_test_split # sklearn(머신러닝을 도와주는 패키지) 여기서 train_test_split(트레이닝셋과 테스트셋을 분류)클래스를 쓸거임     

df = pd.read_csv('advertising.csv') # csv파일을 읽을때 사용
df.head(5) # 맨앞에서 5줄 출력해라 df.tail(5)은 뒤에서 5줄출력하라는뜻

print(df.shape) # 모양 살피기 (200줄짜리 데이터셋 열은 4개(티비,라디오등등) )

sns.pairplot(df, x_vars=['TV', 'Newspaper', 'Radio'], y_vars=['Sales'], height=4) # 데이터프레임(df)를 통으로 넣고 내가 보고싶은 variable만 뽑아서 티비,신문,라디오와 sales 간의 관계를 보여줘라는 뜻 높이는4

x_data = np.array(df[['TV']], dtype=np.float32) # 입력값 티비만 추출
y_data = np.array(df['Sales'], dtype=np.float32) # 출력값 세일즈만 추출

print(x_data.shape) # 모양출력
print(y_data.shape) 

x_data = x_data.reshape((-1, 1)) # reshape((-1, 1)여기서 -1은 남은 수만큼 알아서 변형해라 뒤에는 무조건1이되야한다.
y_data = y_data.reshape((-1, 1))

print(x_data.shape)
print(y_data.shape)

x_train, x_val, y_train, y_val = train_test_split(x_data, y_data, test_size=0.2, random_state=2021) #20%는 테스트데이터셋으로 쓰고 80%는 트레인셋으로 나눠줘라 / random_state 랜덤으로 변수 지정

print(x_train.shape, x_val.shape)     # 밑에는 트레이닝데이터는 160개고, 밸리데이션데이터는 40개다 즉 160개 데이터로 학습시키고 40개로 검증하겠다.
print(y_train.shape, y_val.shape)

model = Sequential([
  Dense(1)  # 세일즈 하나만 예측
])

model.compile(loss='mean_squared_error', optimizer=Adam(lr=0.1))

model.fit(
    x_train,
    y_train,
    validation_data=(x_val, y_val), # 검증 데이터를 넣어주면 한 epoch이 끝날때마다 자동으로 검증
    epochs=100 # epochs 복수형으로 쓰기! / 100번 반복 학습해라 
)

y_pred = model.predict(x_val)

plt.scatter(x_val, y_val) # scatter 점찍는 그래프 
plt.scatter(x_val, y_pred, color='r') # 정답값과 예측값을 그리는데 예측값은 빨간색 
plt.show()

🌱 느낀 점

강의를 듣기 전까지 머신러닝은 기계를 학습시킨다는 뜻이라는 것만 알고있었다. 영어와 수학까지 배울거라고는 예상치못했는데 배우는 주된 부분이 영어와 수학임을 깨닫고 많이 걱정되었다. 머신러닝을 이용해서 어떻게 사물인식을 할수 있는 건지 아직 감이 잡히지 않아서 걱정도 되는 한편 너무 궁금하기도 하다.
오늘부터 팀이 새로 구성되었다. 준헌님 호빈님 우진님 우리 팀프로젝트 잘해봅시다요 😉

🎁 자세한 코드는 colab 에 게시했습니다

문명주

하루 한걸음씩 꾸준히 나아가는 개발자🙆‍♀️ https://github.com/Moonmooj

이전 포스트

📕 [WIL] 2022.05.11_17일차 # WIL KPT회고

다음 포스트