멋쟁이 사자처럼 AI 스쿨 TIL-41

김영민·2022년 11월 28일

AI스쿨 데이터분석가 딥러닝 머신러닝 멋쟁이사자처럼

이진 분류의 평가

QnA

정확도로 제대로 된 모델의 성능을 측정을 하기 어려운 사례는 어떤게 있을까요?

금융 => 은행 대출 사기, 신용카드 사기, 상장폐지종목 여부
제조업 => 양불(양품, 불량품) 여부
헬스케어 => 희귀질병(암 진단여부)
IT관련 => 게임 어뷰저, 광고 어뷰저, 그외 어뷰저
대회에서 어뷰저 관련 내용을 찾을 때는 Fraud 등으로 검색하면 여러 사례를 찾을 수 있습니다.

기존에는 예측을 할 때 주로 predict 를 사용했지만 predict_proba 를 하게 되면 0,1 등의 클래스 값이 아닌 확률값으로 반환합니다.

임계값을 직접 정해서 True, False를 결정하게 되는데 보통 0.5 로 하기도 하고 0.3, 0.7 등으로 정하기도 합니다.
임계값 == Threshold

코랩에서 zip파일과 csv파일의 차이

zip 은 완전히 다 업로드 되어야 로드가 가능합니다.
csv 는 행기반으로 저장되어 있기 때문에 일부만 업로드 되더라도 불러올 수 있습니다.

Confusion Matrix(혼동 행렬)

TRUE : 모델이 맞췄을 때
FALSE : 모델이 틀림
Positive : 모델이 예측 값이 TRUE
Negative : 모델이 예측 값이 FALSE

정확도(Accuracy)

=> 사이킷런과 기준이 같기 때문에

1종 오류

실제 값은 아닌데 모델 예측값이 정답이라고 나온 오류
측정 지표 : 스팸메일, 음성인데 양성으로 결과가 나옴
Precision : TP/(TP +FP)

2종 오류

실제 값은 맞는데 모델 예측값이 틀린 값이라고 나온 오류
recall : TP/(Tp+FN)
암인데 암이 아니라고 예측

Precision(정밀도)

TP/(TP+FP)
Precision이 낮다 => 참이 아닌데도 참이라고 한 것이 많다.
Precision이 지나치게 높다 => 참으로 예측한 경우가 필요이상으로 적다.

Recall(재현율)

TP/(TP+FN)
Recall 이 낮다. => 참인데 못 찾은 것이 많다.
Recall이 지나치게 높다 => 참으로 예측한 경우가 필요이상으로 많다.

F1 Score

정밀도와 재현율의 조화평균

Predict_proba

# predict_proba 는 확률 값을 예측합니다.
# 각 클래스마다의 확률을 예측합니다.
# 0, 1 일 때 각각의 확률을 의미합니다.
# [0.5, 0.5], [0.3, 0.7], [0.7, 0.3]이렇게 나오기도
# 클래스가 여러 개 일 때 이런 확률을 사용해서 예측하기도 합니다. 
y_pred_proba = model.predict_proba(X_test)
print(y_pred_proba.shape)
y_pred_proba[:5]

언더샘플링

under-sampling은 더 값이 많은 쪽에서 일부만 샘플링하여 비율을 맞춰주는 방법

# 1 인데이터가 492개 이기 때문에 0인 데이터를 랜덤하게 492개 추출하면 언더샘플링입니다.
y.value_counts()

df_0 = df[df["Class"]==0].sample(492)
df_1 = df[df["Class"]==1]
df_0.shape, df_1.shape

df_under = pd.concat([df_0,df_1])
df_under["Class"].value_counts()

오버샘플링

더 값이 적은 쪽에서 값을 늘려 비율을 맞춰준 방법

딥러닝

순전파

인공 신경망에서 입력층에서 출력층 방향으로 예측값의 연산이 진행되는 과정

입력값은 입력층, 은닉층을 지나며 각 층에서의 가중치와 함께 연산되며, 출력층에서 모든 연산을 마친 예측값 도출

역전파

순전파와 반대로 출력층에서 입력층 방향으로 계산하면서 가중치를 업데이트

역전파를 통해 가중치 비율을 조정하여 오차 감소를 진행 => 다시 순전파 진행으로 오차 감소확인 가능

ndim

차원 확인하기

출처

멋쟁이사자처럼 박조은강사님

김영민

배운걸 다 흡수하는 제로민

이전 포스트

멋쟁이 사자처럼 AI 스쿨 TIL-40

다음 포스트