실전 머신러닝 적용 2주차

kinghong97·2022년 1월 9일

실전 머신러닝 적용

목록 보기

2/3

논리 회귀 logistic regression

선형회귀로 풀지 못하는 것

S커브로 나타냄

임계치가 있음

시그모이드라고 말함

0~1 사이 값

크로스엔트로피 crossentropy를 사용해서
소프트맥스와의 차이를 구하고 최소화한다

전처리 pre-processing

머신러닝의 70~80퍼센트 차지

준비과정

데이터를 정제

예외사항을 제거 = 아웃라이어를 제거

단위를 맞춰주기

정규화 normalization

데이터를 0과 1사이의 범위를 가지도록 만들기

표준화 standardization

데이터의 평균이 0이 되도록하고 표준편차가 1이되도록하는

데이터의 평균을 빼주고 표준편차를 나눠준다

최저점으로 수렴하는 속도라 빠르다 = 학습속도가 빠르다

localminimun에 빠질 확률이 낮아진다

거의 모든 모델이 정규화를 사용

다항 논리 회귀 multinomial logistic regression

원 핫 인코딩 one-hot encoding
출력값의 형태를 가장 예쁘게 표현할 수 있는 방법

다항 논리 회귀도 다항분류에 속하기 때문에 원핫 인코딩 사용

원핫 인코딩을 만드는 방법
클래스의 개수만큼 배열을 0으로 채운다
각 클래스의 인덱스 위치를 정한다
각 클래스에 해당하는 인덱스에 1을 넣는다

소프트맥스 함수 사용 softmax

가중치를 계산해서
다 더했을때 1.0이되게한다

크로스엔트로피 crossentropy를 사용해서
소프트맥스와의 차이를 구하고 최소화한다

다양한 머신러닝 모델

support vector machine(svm)

선을 잘 긋는 방법을 알아내는 것

support vector 선을 최대로 하는 지지하는 선

margin 클수록 좋다 최대로 먼 선 사이에 간격

support vector이 멀도록 margin이 크도록 학습시키기

분류기의 성능이 낮다면 2개의 feature 특징으로 분류하기 힘들고

3개를 해보고 10개를 해보고 그러자

feature가 늘어날수록 성능이 늘어난다

k-nearest neighbors (knn)

몇개의 이웃이 나랑 가깝냐

가까운 이웃으로 이게 무엇인지 판단

k가 이웃의 개수

k가 2면 주변 이웃 둘을 보고 판단

decision tree

스무고개 형식 간단한 문제를 풀 때 사용

random forest

디시전 트리 여러개를 합친게 랜턴 포레스트 random forest

디시전 트리에서 나온 결과를 가지고 뭐가 많이 나왔는지를 투표해서 뭔지 판단한다

kinghong97

이전 포스트

실전 머신러닝 적용 1주차

다음 포스트

실전 머신러닝 적용 2주차