머신 러닝(Machine Learning)

Stop._.bmin·2023년 1월 31일

AI ML

🤔 머신러닝

영상 처리, 번역기, 음성 인식, 스팸 메일 탐지 등 굉장히 많은 분야에서 응용되는 중이다. 특히 머신 러닝의 한 갈래인 딥 러닝은 자연어 처리 엔지니어에게 필수 역량이다.

머신러닝의 방식

위쪽은 기존의 프로그래밍 접근 방식
아래쪽은 머신 러닝의 접근 방식

머신 러닝은 데이터가 주어지면, 기계가 스스로 데이터로부터 훈련성을 찾는 것에 집중한다. 주어진 데이터로부터 규칙성을 찾는 과정을 훈련(training) 또는 학습(learning)이라고 한다.

훑어보기

머신 러닝을 위한 데이터: 훈련용 검증용 테스트용

훈련: 머신 러닝 모델 학습
테스트: 머신 러닝 모델의 성능 평가
검증: 과적합이 되고 있는지 판단하거나 하이퍼파라미터의 조정을 위한 용도
- 하이퍼파라미터(초매개변수): 모델의 성능에 영향을 주는 사람이 값을 지정하는 변수
- 매개변수: 가중치와 편향. 학습을 하는 동안 값이 계속 변하는 수

1. 분류(Classification)와 회귀(Regression)

머신 러닝의 많은 문제는 분류 또는 회귀 문제에 속한다.

회귀

선형 회귀(Lineare Regression)
로지스틱 회귀(Logistic Regression)

1) 이진 분류 문제(Binary Classification)

다중 클래스 분류는 주어진 입력에 대해서 세 개 이상의 선택지 중에서 답을 선택해야 하는 경우를 말한다.

합/불을 판단하는 문제, 메일을 보고 정상메일, 스팸 메일인지 판단하는 문제

2) 다중 클래스 분류(Multi-class Classification)

다중 클래스 분류는 주어진 입력에 대해서 세 개 이상의 선택지 중에서 답을 선택해야 하는 경우를 말한다.

새 책이 입고되었을 때, 다섯 개의 분야의 책장 중에서 적절한 분야에 책을 넣는 문제

3) 회귀 문제(Regression)

회귀 문제는 어떠한 연속적인 값의 범위 내에서 예측값이 나오는 경우를 말한다.

역과의 거리, 인구 밀도, 방의 개수를 입력하면 부동산 가격을 예측하는 머신 러닝 모델이 있다고 했을 때, 특정 값의 범위 내에서 어떤 숫자도 나올 수 있는 문제
시계열 데이터(Time Series Data)를 이용한 주가 예측, 생산량 예측, 지수 예측 등이 있다.

2. 지도 학습과 비지도 학습

1) 지도 학습(Supervised Learning)

레이블(Lable)이라는 정답과 함께 학습하는 것(자연어 처리는 대부분 지도 학습에 속한다)
레이블이라는 말 이외에도 y, 실제값 등으로 부르기도 한다.
기계는 예측값과 실제값의 차이인 오차를 줄이는 방식으로 학습을 하게 되는데 예측값을 ^y과 같이 표현하기도 한다.

2) 비지도 학습(Unsupervised Learing)

별도의 레이블 없이 학습하는 것을 말한다.

3) 자기지도 학습(Self-Supervised Learning, SSL)

레이블이 없는 데이터가 주어지면, 모델이 학습을 위해서 스스로 데이터로부터 레이블을 만들어서 학습하는 경우

3. 샘플(Semple)과 특성(Feature)

많은 머신 러닝 문제는 1개 이상의 독립 변수x를 가지고 종속 변수y를 예측하는 문제다.
인공 신경망은 독립 변수, 종속 변수, 가중치, 편향 등을 행렬 연산을 통해 연산하는 경우가 많다. 앞으로 인공 신경망을 배우게되면 훈련 데이터를 행렬로 표현하는 경우를 많이 보게 된다.