내일배움캠프AI - 실전 머신러닝 적용 2주차 개발일지

Dongwoo Kim·2022년 5월 13일

AI 개발일지 내일배움캠프 머신러닝 스파르타코딩클럽

내일배움캠프 - 실전 머신러닝 적용 강의

목록 보기

2/4

스파르타코딩클럽

내일배움캠프AI 웹개발자양성과정 2회차

실전 머신러닝 적용 - 2주차 개발일지

1. 논리 회귀 (Logistic regression)

: 선형 회귀로 풀기 어려운 문제를 해결하기위한 방법

1) 이진 분류 (결과값이 0과 1)
2) 다항 분류 (결과값이 확률로 나타남)

회귀(regression)라는 단어가 들어가지만 실제로는 분류(classification)

2. 이진 분류 (binary)

1) sigmoid fuction

: 선형회귀의 결과 값을 시그모이드함수의 입력값으로받아서 0과 1로 결과값으 나타낸다

3. 다항 분류 (Multinomial logistic regression)

1) one-hot encoding

: 클래스값(결과값)의 종류를 1과 0으로 나타냄

ex) 클래스 : 고양이, 강아지, 코끼리

고양이 : [1, 0, 0]
강아지 : [0, 1, 0]
코끼리 : [0, 0, 1]

2) softmax

: 선형모델의 결과값을 입력값으로 받아서 결과값의 총합이 1이되도록 각 클래스별 확률로 나타냄

ex)
선형회귀 결과값 : [2.0, 1.0, 0.1]
소프트맥스 결과값 : [0.7, 0.2, 0.1]

4. cross-entropy

1) entroy

: 복잡도, 불확실성 정도

$H(q)=−\displaystyle∑_{C=1}^{C}q(y_c)\log(q(y_c))$

$c$ : 클래스개수
$q$ : 확률질량함수 (확률 분포)
$q(y_c)$ : 클래스 별 확률

2) cross-entropy

실제 확률 분포와 예측 확률 분포 간의 오차를 측정하는 손실함수

$H_p(q)=−\displaystyle\sum_{C=1}^{C} q(y_c)\log(p(y_c))$

$c$ : 클래스개수
$q$ : 확률질량함수 (확률 분포)
$q(y_c)$ : 클래스 별 확률
$p(y_c)$ : 클래스 별 예측 확률

이진분류 손실함수 : binary cross-entropy
다항분류 손실함수 : categorical_crossentropy

5. 실습

숙제 - 이진 논리회귀

당뇨병 데이터로 진단확률 구하기
https://colab.research.google.com/drive/1pYw9gq-GQJZX_zl01D-XMxEUElRSSezX?usp=sharing

Dongwoo Kim

kimphysicsman

이전 포스트

내일배움캠프AI - 실전 머신러닝 적용 1주차 개발일지

다음 포스트