선형회귀로 풀지 못하는 것
S커브로 나타냄
임계치가 있음
시그모이드라고 말함
0~1 사이 값
크로스엔트로피 crossentropy를 사용해서
소프트맥스와의 차이를 구하고 최소화한다
머신러닝의 70~80퍼센트 차지
준비과정
데이터를 정제
예외사항을 제거 = 아웃라이어를 제거
단위를 맞춰주기
정규화 normalization
데이터를 0과 1사이의 범위를 가지도록 만들기
표준화 standardization
데이터의 평균이 0이 되도록하고 표준편차가 1이되도록하는
데이터의 평균을 빼주고 표준편차를 나눠준다
최저점으로 수렴하는 속도라 빠르다 = 학습속도가 빠르다
localminimun에 빠질 확률이 낮아진다
거의 모든 모델이 정규화를 사용
원 핫 인코딩 one-hot encoding
출력값의 형태를 가장 예쁘게 표현할 수 있는 방법
다항 논리 회귀도 다항분류에 속하기 때문에 원핫 인코딩 사용
원핫 인코딩을 만드는 방법
클래스의 개수만큼 배열을 0으로 채운다
각 클래스의 인덱스 위치를 정한다
각 클래스에 해당하는 인덱스에 1을 넣는다
소프트맥스 함수 사용 softmax
가중치를 계산해서
다 더했을때 1.0이되게한다
크로스엔트로피 crossentropy를 사용해서
소프트맥스와의 차이를 구하고 최소화한다
선을 잘 긋는 방법을 알아내는 것
support vector 선을 최대로 하는 지지하는 선
margin 클수록 좋다 최대로 먼 선 사이에 간격
support vector이 멀도록 margin이 크도록 학습시키기
분류기의 성능이 낮다면 2개의 feature 특징으로 분류하기 힘들고
3개를 해보고 10개를 해보고 그러자
feature가 늘어날수록 성능이 늘어난다
몇개의 이웃이 나랑 가깝냐
가까운 이웃으로 이게 무엇인지 판단
k가 이웃의 개수
k가 2면 주변 이웃 둘을 보고 판단
스무고개 형식 간단한 문제를 풀 때 사용
디시전 트리 여러개를 합친게 랜턴 포레스트 random forest
디시전 트리에서 나온 결과를 가지고 뭐가 많이 나왔는지를 투표해서 뭔지 판단한다