내일배움캠프 AI
오늘 한 일
실전 머신러닝 적용 강의
논리 회귀 (Logistic regression=Sigmoid function)
대학교 시험 전 날 공부한 시간을 가지고 해당 과목의 이수 여부(Pass or fail)를 예측
- 선형회귀로 풀수없는 현상 풀 수 있다.
- 임계치(Threshold) 변경가능
- 출력값범위 0 ~ 1
- 손실함수 Crossentropy 함수 이용
- Keras에서 이진 논리 회귀의 경우 binary_crossentropy 손실 함수를 사용
- 단항 논리 회귀 -> sigmoid를 사용해 0이냐 1이냐로 나뉜다 -> Crossentropy사용해서 확률 분포 그래프의 차이를 계산해서 최소화
다항 논리 회귀 (Multinomial logistic regression)
대학교 시험 전 날 공부한 시간을 가지고 해당 과목의 성적(A, B, C, D, F)을 예측
- Keras에서 다항 논리 회귀의 경우 categorical_crossentropy 손실 함수를 사용
- 다항 논리 회귀 -> softmax를 사용해 모든 결과의 합이 1이 되도록 만든다 -> Crossentropy사용해서 확률 분포 그래프의 차이를 계산해서 최소화
머신러닝 모델 종류
- Support vector machine (SVM) : 모델의 특징(Feature)에 따라 구별하여 하나의 벡터선(Support vector)을 그리고 그 벡터와의 거리(Margin)가 넓어지도록 학습시켜 만든 모델
- k-Nearest neighbors (KNN) : 비슷한 특성을 가진 개체끼리 군집화하는 알고리즘
- Decision tree (의사결정나무) : 스무고개와 같은 방식으로 예, 아니오를 반복하며 추론하는 방식
- Random forest : 의사결정나무를 여러개 합친 모델
전처리(Preprocessing) : 넓은 범위의 데이터 정제 작업, 데이터를 지우고 필요한 데이터만을 취하는 것
- 전처리를 하게되면 학습속도가 빠르고 Local minima에 빠질 가능성이 낮아진다.
- 정규화 (Normalization) : 데이터를 0과 1사이의 범위를 갖는다. 가장 작은 값 0, 가장 큰 값 1
X′=X최대−X최소X−X최소
- 표준화 (Standardization) : 데이터의 분포를 정규분포로 바꿔준다. 데이터의 평균 0 표준편차 1
X′=X표준편차X−X평균