머신러닝은 데이터에서부터 학습하도록 컴퓨터를 프로그래밍하는 과학이다.
어떤 작업 T에 대한 컴퓨터 프로그램의 성능을 P라 할 때, 경험 E 로 인해 성능이 향상되었다면, 컴퓨터 프로그램은 작업 T와 성능 P에 대해 경험 E로 학습한 것이다.
훈련 세트: 학습 시 사용하는 샘플
훈련 사례: 훈련 데이터 (샘플)
스팸 필터를 구현한다고 했을 때, 작업 T 는 스팸인지 구분하는 것, 경험 E는 훈련 데이터, 성능 P는 직접 정의(정확히 분류된 메일의 비율, 정확도)
전통적인 접근 방법이다.
머신러닝을 사용하면 필터가 스팸의 패턴을 감지하여 기준을 자동으로 학습한다.
✅ 지도, 비지도, 준지도, 강화 학습
✅ 온라인 학습과 배치 학습
✅ 사례 기반 학습과 모델 기반 학습
지도와 비지도는 학습하는 공안의 감독 형태나 정보량에 따라 분류한다.
지도, 비지도, 준지도, 강화학습의 네 가지 범주가 있다.
지도 학습
알고리즘에 주입하는 훈련 데이터에 레이블이라는 원하는 값을 준다.
위와 같이 샘플에 레이블을 달아놓고, 새로운 샘플에 대한 예측을 진행하는 것이다.
중요한 지도 학습 알고리즘들 🔽
비지도 학습
훈련 데이터에 레이블 없이 학습하는 것을 비지도 학습이라 한다.
중요한 비지도 학습 알고리즘들 🔽
계층 군집 알고리즘을 사용하면 각 그룹을 작은 그룹으로 세분화 할 수 있다.
시각화를 통해 데이터 조직과 예상치 못한 패턴을 발견한다
차원축소는 정보를 유지하면서 데이를 간소화 하는 것이다. (상관관계가 있는 특성을 하나로 합친다, 특성추출)
이상치탐지는 알고리즘을 학습시키기 전에 데이터셋에서 이상한 값을 자동으로 제거하는 것이다.
특이치탐지는 훈련 세트에 있는 모든 샘플과 달라 보이는 새로운 샘플을 탐지한다. (훈련 세트에 들어있으면 탐지하지 않는다)
연관 규칙 학습은 대량의 데이터에서 특성 간의 관계를 찾는 것이다.
준지도 학습*
일부만 레이블이 있는 데이터를 준지도 학습이라고 한다.
사진과 같은 경우 레이블이 있는 사각형 클래스에 X가 가깝지만 오히려 레이블이 없는 샘플 원이 샘플을 삼각형으로 분류하는데 도움을 준다.
지도 학습과 비지도 학습의 조합으로 이루어져 있으며, 심층 신뢰 신경망 DBN 은 여러 겹으로 쌓은 제한된 볼트만 머신이라 불리는 비지도 학습에 기초한다.
강화학습
학습하는 시스템을 에이전트라 한다. 환경을 관찰해서 행동하고, 결과로 보상을 받는다. 보상을 얻기위해 정책이라고 부르는 최상의 전략을 스스로 학습하는 것이 강화학습이다.
또 다른 기준은 입력데이터의 스트림으로부터 점진적으로 학습할 수 있는지 여부이다.
배치 학습(오프라인 학습)
배치 학습은 시스템이 점진적으로 학습할 수 없다. 가용한 데이터를 모두 사용해 룬련 시켜야 하고, 제품에 적용하면 더이상의 학습은 없으므로 오프라인 학습이라 한다. (학습이나 실행 모두 오프라인에서 한다.)
온라인 학습
온라인 학습은 데이터를 순차적으로 한 개씩 또는 미니배치라 부르는 작은 묶음 단위로 주입하여 훈련시킨다. 데이터가 도악하는 대로 즉시 학습할 수 있다.
학습률 : 온라인 학습 시스템에서 변화하는 데이터에 대해 얼마나 빠르게 적응할 것인지를 나타내는 파라미터.
어떻게 일반화 되는가에 따른 분류이다. 이때 일반화란 학습 과정을 거치고 새로운 데이터에 대해 좋은 예측을 만드는 과정을 뜻한다.
일반화를 위한 두 가지 접근법이다!
사례 기반 학습
단순히 기억하는 학습! 추가적으로 유사도 측정을 사용해 새로운 데이터와 학습한 샘플을 비교할 수 있다.
사용자가 스팸이라고 지정한 메일과 동일한 모든 메일을 스팸이라 분류하는 것이다.
모델 기반 학습
샘플들의 모델을 만들어 예측에 사용하는 것!
다음과 같은 GDP 에 따른 삶의 만족도 그래프를 보자.
이러한 흩어진 데이터를 보고 모델을 선택하는 것이 모델 기반 학습이다. 여기선 GDP 가 증가할 수록 리니어하게 만족도도 증가하는 선형 모델을 선택할 수 있다.
데이터셋에 맞는 비용을 최소화하는 모델을 훈련을 통해 찾았다고 할 수 있다. 이제 모델을 사용해 예측을 수행할 수 있다.
# 예제 코드
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
import sklearn.linear_model
# 데이터 적재
oecd_bli = pd.read_csv(datapath + "oecd_bli_2015.csv", thousands=',')
gdp_per_capita = pd.read_csv(datapath + "gdp_per_capita.csv",thousands=',',delimiter='\t',
encoding='latin1', na_values="n/a")
# 데이터 준비
country_stats = prepare_country_stats(oecd_bli, gdp_per_capita)
X = np.c_[country_stats["GDP per capita"]]
y = np.c_[country_stats["Life satisfaction"]]
# 데이터 시각화
country_stats.plot(kind='scatter', x="GDP per capita", y='Life satisfaction')
plt.show()
# 선형 모델 선택
model = sklearn.linear_model.LinearRegression()
# 모델 훈련
model.fit(X, y)
# 키프로스에 대한 예측
X_new = [[22587]] # 키프로스 1인당 GDP
print(model.predict(X_new)) # 출력 [[ 5.96242338]]
만약 k- 최근접 이웃 모델을 사용하고 싶다면 두 줄만 바꾸면 된다.
import sklearn.linear_model
model = sklearn.linear_model.LinearRegression
import sklearn.neighbors
model = sklearn.neighbors.KNeighborsRegressor(n_neighbors = 3)
머신러닝 프로젝트 형태 🔽
나쁜 데이터의 예🔽
아주 간단한 문제에서조차 수천 개의 데이터가 필요.
어느정도 충분한 데이터셋이 확보되어야 테스트 정확도를 높일 수 있다.
새로운 사례가 들어왔을 때 훈련 데이터가 이를 충분히 대표할만 해야한다. 샘플이 작으면 샘플링 노이즈가 생기고, 매우 큰 샘플도 표본 추출 방법이 잘못되면 대표성을 띠지 못할 수 있다. (샘플링 편향)
훈련 데이터가 에러, 이상치, 잡음으로 가득한 경우.
FE: 훈련에 사용할 좋은 특성들을 찾는 것.
feature selection : 특성 중 가장 유용한 특성들만 선택.
feature extraction : 특성을 결합하여 유용한 특성 만들기
나쁜 알고리즘의 예🔽
과대적합, 오버피팅이란 모델이 훈련 데이터에만 너무 잘 맞고 일반성이 떨어지는 거을 뜻한다.
오버피팅을 해결 방법은 다음과 같다.
규제: 오버피팅의 위험을 감소시키기 위해 모델에 제약을 가하는 것.
파라미터 세타는 자유도를 학습 알고리즘에 부여한다. 세타가 두 개일 때, 하나를 0으로 고정시킨다면 한 개의 자유도만 남고 데이터에 적절하게 맞춰지기 힘들다.
따라서 세타1을 작은 값으로 유지시키면 자유도를 적절히 조절하면서 오버피팅도 방지할 수 있다.
하이퍼파라미터: 학습 시 적용할 규제의 양. 값이 커질수록 거의 평편한 모델, 과적합은 방지할 수 있으나 좋은 모델을 찾지 못한다.
과대적합의 반대의 경우이다.
중요한 방법 중 하나가 훈련 데이터를 훈련 세트와 테스트 세트로 분리하는 것이다. 왜? 새로운 샘플에 대해 얼마나 잘 동작하는지 알기 위해서!
이때 새로운 샘플에 대한 오류 비율을 일반화 오차(외부샘플오차) 라 한다.
모델과 하이퍼파라미터가 테스트 세트에만 최적화된 모델(새로운 데이터 X)을 만들었다면 어떻게 해야할까?
홀드아웃 검증을 통해 해결한다! 훈련 세트의 일부를 떼어내어(검증 세트) 여러 후보 모델을 평가하고 가장 좋은 하나를 선택하는 것이다.
전체 훈련 세트 = 훈련 세트 + 검증 세트
검증 세트가 너무 작거나 클 경우 문제가 발생, 교차 검증으로 해결할 수 있다. 교차 검증: 작은 검증 세트를 여러 개를 사용해 반복적으로 검증 세트 역할 부여.
데이터 불일치