혼공 ML+DL #9

myeong·2022년 9월 26일

ML+DL

목록 보기

7/23

📌 확률

📍 데이터 준비

head() : csv 파일 읽어서 pandas 표로 보여줌

import pandas as pd

fish = pd.read_csv('https://bit.ly/fish_csv_data')
fish.head()

Species = target (7가지 생선), 나머지 = features (특성)

📍 Data Set, 정규화

fish_input = fish[['Weight', 'Length', 'Diagonal', 'Height', 'Width']].to_numpy()
fish_target = fish['Species'].to_numpy()

from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(
    fish_input, fish_target, random_state = 42
)

from sklearn.preprocessing import StandardScaler

ss = StandardScaler()
ss.fit(train_input)
train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

📍 k-최근접 이웃의 다중 분류

classes_ : 모델이 데이터로부터 학습한 7개의 생선 속성
(지정한 것x, train_target으로부터 추출)

from sklearn.neighbors import KNeighborsClassifier

kn = KNeighborsClassifier(n_neighbors=3)
kn.fit(train_scaled, train_target)

print(kn.classes_)

['Bream' 'Parkki' 'Perch' 'Pike' 'Roach' 'Smelt' 'Whitefish']

5개의 sample에 대해 예측

print(kn.predict(test_scaled[:5]))

['Perch' 'Smelt' 'Pike' 'Perch' 'Perch']

5개의 sample에 대해 7개 클래스(생선)에 해당할 확률

import numpy as np

proba = kn.predict_proba(test_scaled[:5])
print(np.round(proba, decimals=4))

[[0. 0. 1. 0. 0. 0. 0. ],
[0. 0. 0. 0. 0. 1. 0. ],
[0. 0. 0. 1. 0. 0. 0. ],
[0. 0. 0.6667 0. 0.3333 0. 0. ],
[0. 0. 0.6667 0. 0.3333 0. 0. ]]

-> 이웃을 3개로 정해놓아서 확률 = 0, 1/3, 2/3, 3/3

📌 로지스틱 회귀 (이진 분류)

z = a x무게 + b x길이 + c x대각선 + d x높이 + e x두께 + f

📍 시그모이드 함수

이진 분류를 확률로 표현
z -> 0 ~ 1 범위로 바꿔줌 (그대로 사용하면 회귀임)
음성 클래스 < 0.5 < 양성 클래스

📍 이진 분류

== : 넘파이 불리언 인덱싱
해당하는 것만 true로 설정, 나머지는 false
bream, smelt 인 원소만 뽑아서 배열로

bream_smelt_indexes = (train_target == 'Bream') | (train_target == 'Smelt')
train_bream_smelt = train_scaled[bream_smelt_indexes]
target_bream_smelt = train_target[bream_smelt_indexes]

from sklearn.linear_model import LogisticRegression
lr = LogisticRegression()
lr.fit(train_bream_smelt, target_bream_smelt)

print(lr.predict(train_bream_smelt[:5]))

['Bream' 'Smelt' 'Bream' 'Bream' 'Bream']

print(lr.predict_proba(train_bream_smelt[:5]))

[[0.99759855 0.00240145],
[0.02735183 0.97264817],
[0.99486072 0.00513928],
[0.98584202 0.01415798],
[0.99767269 0.00232731]]

-> 도미: 음성 , 빙어: 양성

📍 계수 확인

선형 함수 계수 확인

print(lr.coef_, lr.intercept_)

[[-0.4037798 -0.57620209 -0.66280298 -1.01290277 -0.73168947]][-2.16155132]

z 값 -> 시그모이드 함수 적용 - scipy의 expit함수

decisions = lr.decision_function(train_bream_smelt[:5])
print(decisions)

from scipy.special import expit
print(expit(decisions))

z 값
[-6.02927744 3.57123907 -5.26568906 -4.24321775 -6.0607117 ]
0 ~ 1 값으로 시그모이드
[0.00240145 0.97264817 0.00513928 0.01415798 0.00232731]

-> 양성 클래스에 대하여 z 값을 계산함

📌 로지스틱 회귀 (다중 분류)

📍 OvR 알고리즘 (One vs Rest)

L2 노름 규제 기본 적용 (C값↑ 규제↓)
max_iter = 반복 횟수 (학습)

lr = LogisticRegression(C=20, max_iter=1000)
lr.fit(train_scaled, train_target)

print(lr.score(train_scaled, train_target))
print(lr.score(test_scaled, test_target))

0.9327731092436975 // 정확도
0.925

proba = lr.predict_proba(test_scaled[:5])
print(np.round(proba, decimals=3))

[[0. 0.014 0.841 0. 0.136 0.007 0.003],
[0. 0.003 0.044 0. 0.007 0.946 0. ],
[0. 0. 0.034 0.935 0.015 0.016 0. ],
[0.011 0.034 0.306 0.007 0.567 0. 0.076],
[0. 0. 0.904 0.002 0.089 0.002 0.001]]

📍 계수 행렬의 크기 확인

print(lr.coef_.shape, lr.intercept_.shape)

(7, 5) (7,)

-> 7개 행은 각 클래스를 의미
-> 5개 행은 각 특성에 곱해지는 계수
-> y 절편이 7개이므로 z값 7개

클래스마다 선형 함수가 하나씩 생성 (z값 7개)
따라서 위에서 예측한 확률의 한 행은...
= 샘플마다 7개의 선형 함수를 적용 시킨 결과의 확률
이진 분류를 7번 훈련해서 선형 함수를 만든다
각 샘플마다 클래스 하나를 양성, 나머지는 음성으로 두고 이진 분류
-> 하나의 샘플 당 7번 반복 -> 7개 z값
가장 큰 확률값 = 예측 클래스

📍 Softmax 함수

다중 분류를 확률로 표현
z값 7개 출력

decision = lr.decision_function(test_scaled[:5])
print(np.round(decision, decimals=2))

[[ -6.5 1.03 5.16 -2.73 3.34 0.33 -0.63],
[-10.86 1.93 4.77 -2.4 2.98 7.84 -4.26],
[ -4.34 -6.23 3.17 6.49 2.36 2.42 -3.87],
[ -0.68 0.45 2.65 -1.19 3.26 -5.75 1.26],
[ -6.4 -1.99 5.82 -0.11 3.5 -0.11 -0.71]]

z1 ~ z7 각각 지수함수 적용, 총합으로 나눔 -> 합=1

from scipy.special import softmax

proba = softmax(decision, axis=1)
print(np.round(proba, decimals=3))

[[0. 0.014 0.841 0. 0.136 0.007 0.003],
[0. 0.003 0.044 0. 0.007 0.946 0. ],
[0. 0. 0.034 0.935 0.015 0.016 0. ],
[0.011 0.034 0.306 0.007 0.567 0. 0.076],
[0. 0. 0.904 0.002 0.089 0.002 0.001]

-> 앞에서 출력한 확률 값과 동일

🔗 혼공 MLDL-9