머신 러닝

sunwoong·2023년 3월 9일
0

-인공지능 != 머신러닝

인공 지능은 특정한 기술이라기보다 하나의 거대한 목표.
머신 러닝은 그 목표를 이루기 위한 하나의 방법론.

진행 과정

Data Collection(데이터 수집) ->
Data Preprocessing(데이터 전처리) ->
EDA(Exploratory Data Analysis)(탐색적 데이터 분석) ->
Model Selection(모델 선택 ) ->
Evaluation & Application(평가 및 적용)

Data Collection (데이터 수집)
요리를 하기 위해 식재료가 필요함.
프로젝트를 하기 위해 데이터가 필요함.
수집방법은 다양하다.
웹 사이트에 있느 자료들을 긁어오는 Web Crawling (웹 크롤링).
Users의 행동 데이터를 수집하기 위해 로그를 이용하는 방법.
Database에 쌓여 있는 데이터를 수집.

Data Preprocessing(데이터 전처리)
수집된 날 것 그대로의 데이터는 더러운경우가 많다.
데이터가 더럽다 = 데이터에 결측값(빠진 부분), 중복값, 이상한 값이 들어가있다.
더러운 데이터를 정제 해주는 과정.
Feature Engineering(속성 엔지니어링) 과정.
-데이터에서 Feature(기존 속성)을 조합해서 새로운 속성을 만들어내는 과정.
예시로, 집의 가격 예측시 집의 가로 및 세로 길이보다 면적이 더 중요한 변수이기때문에 가로와 세로를 곱해서 새 속성인 면적을 생성한다.
정제 및 가공외의 일도 데이터 전처리라고 명시한다.
-Feature Scaling(데이터의 스케일을 조정).
-Dummification(더미화).
-Dimesionality(차원을 줄이는 조정).

EDA(Exploratory Data Analysis)(탐색적 데이터 분석) ->
생략.

Model Selection(모델 선택 )
새로운 입력 데이터를 받았을 때 예측값을 계산하는 방법(Model).
Logistic Regressin (로지스틱회귀),KNN(K-Nearest Neighbors)등 수많은 종류의 모델이 있으면 적절한 모델을 선택하는 것은 데이터 분석가의 몫.
모델이 사용할 Features(속성들)을 선택.
모델을 조절하는 버튼인 Hyper Parameter(하이퍼 파라미터)

Evaluation & Application(평가 및 적용)
Machine Learning(머신 러닝) 모델의 성능을 평가하고 모델을 활용하여 새로운 데이터에 대한 예측을 하는 과정.
평가용 데이터셋은 모델 선택과 모델 학습 과정에서 쓰이지않아야한다.
프로젝트를 시작하기 전에 학습용 데이터셋과 평가용 데이터셋을 나누어놓고, 평가용 데이터셋은 모델 선택 과정이 끝나기 전까지 보지 말아야 한다는 것이다.
이렇게 하는 이유는 평가 과정의 목적이 모델이 새로운 데이터에 대해 얼마나 일반화 (generalization) 가능한지 측정하는 것이기 때문이다. 모델이 아직 보지 못한 새로운 데이터에 얼마나 잘 작동하는지 제대로 측정하기 위해서는, 평가용 데이터셋은 모델이 ‘아직 보지 못한 새로운 데이터’이어야 한다. 그렇기 때문에 평가용 데이터셋을 미리 떼어놓고 일부러 모델을 만드는 과정에서 제외하는 것이다.

가장중요하지만

0개의 댓글