실전 머신러닝 적용 2주차

kinghong97·2022년 1월 9일
0

논리 회귀 logistic regression

선형회귀로 풀지 못하는 것

S커브로 나타냄

임계치가 있음

시그모이드라고 말함

0~1 사이 값

크로스엔트로피 crossentropy를 사용해서
소프트맥스와의 차이를 구하고 최소화한다

전처리 pre-processing

머신러닝의 70~80퍼센트 차지

준비과정

데이터를 정제

예외사항을 제거 = 아웃라이어를 제거

단위를 맞춰주기

정규화 normalization

데이터를 0과 1사이의 범위를 가지도록 만들기

표준화 standardization

데이터의 평균이 0이 되도록하고 표준편차가 1이되도록하는

데이터의 평균을 빼주고 표준편차를 나눠준다

최저점으로 수렴하는 속도라 빠르다 = 학습속도가 빠르다

localminimun에 빠질 확률이 낮아진다

거의 모든 모델이 정규화를 사용

다항 논리 회귀 multinomial logistic regression

원 핫 인코딩 one-hot encoding
출력값의 형태를 가장 예쁘게 표현할 수 있는 방법

다항 논리 회귀도 다항분류에 속하기 때문에 원핫 인코딩 사용

원핫 인코딩을 만드는 방법
클래스의 개수만큼 배열을 0으로 채운다
각 클래스의 인덱스 위치를 정한다
각 클래스에 해당하는 인덱스에 1을 넣는다

소프트맥스 함수 사용 softmax

가중치를 계산해서
다 더했을때 1.0이되게한다

크로스엔트로피 crossentropy를 사용해서
소프트맥스와의 차이를 구하고 최소화한다

다양한 머신러닝 모델

support vector machine(svm)

선을 잘 긋는 방법을 알아내는 것

support vector 선을 최대로 하는 지지하는 선

margin 클수록 좋다 최대로 먼 선 사이에 간격

support vector이 멀도록 margin이 크도록 학습시키기

분류기의 성능이 낮다면 2개의 feature 특징으로 분류하기 힘들고

3개를 해보고 10개를 해보고 그러자

feature가 늘어날수록 성능이 늘어난다

k-nearest neighbors (knn)

몇개의 이웃이 나랑 가깝냐

가까운 이웃으로 이게 무엇인지 판단

k가 이웃의 개수

k가 2면 주변 이웃 둘을 보고 판단

decision tree

스무고개 형식 간단한 문제를 풀 때 사용

random forest

디시전 트리 여러개를 합친게 랜턴 포레스트 random forest

디시전 트리에서 나온 결과를 가지고 뭐가 많이 나왔는지를 투표해서 뭔지 판단한다

0개의 댓글