240422 TIL #379 AI Tech #1 정형 데이터 / 평가 지표

김춘복·2024년 4월 22일
0

TIL : Today I Learned

목록 보기
379/571

Today I Learned

오늘부터 부스트캠프 AI Tech 준비과정에 입소했다. 성실하게 강의 잘 수강해서 잘 마쳐보자. 화이팅!


정형 데이터

Structured Data 라고하며 관계형 DB나 엑셀처럼 행(row)과 열(column)로 표현이 가능한 데이터를 말한다.

  • 행 하나는 데이터 인스턴스, 각 열은 데이터의 피처를 나타낸다.

  • 비정형 데이터 : 이미지, 비디오, 자연어 등 정제되지 않은 데이터
    딥러닝으로 인해 최근 중요도가 매우 상승

  • 정형데이터는 가장 기본적이고 사회의 많은 부분이 정형데이터로 남으므로 기본적으로 가장 중요.

  • 정형데이터를 통해 의미 있는 데이터를 뽑아내려면 많은 가설을 세우고 실험, 검증하는 것이 필요하다.
    Train - Valid - Test 전략을 잘 세워야한다.


머신 러닝 평가 지표

분류 & 회귀

  • 분류(Classification) : 예측해야할 대상의 개수가 정해진 문제.
    ex) 이미지에서 사람과 원숭이 분류

  • 회귀(Regression) : 예측해야할 대상이 연속적인 숫자인 문제
    ex) 일기예보에서 내일 온도 예측

  • 평가지표(Evaluation Metric) : 분류, 회귀 머신러닝 문제의 성능을 평가할 지표

Confusion Matrix(분류문제)

  • TP(정답이 P고 모델도 P), TN(정답이 N이고 모델도 N), FP(정답이 N인데 모델은 P라고 잘못 예측), FN(정답은 P인데 모델은 N이라고 잘못 예측)

  • Accuracy = (TP+TN) / (TP+TN+FP+FN)
    정확도. 전체 데이터 중 모델이 바르게 분류한 비율
    매일 비가 안온다고 해도 정확도가 70%이상인데 이걸 가지고 정확하다고는 할 수 없으므로 완전한 지표 x

  • Precision = TP / (TP+FP)
    N인 지표를 P라고 하면 안될때. Negative가 중요할 때 사용
    스팸메일 걸러낼때 일반 메일을 스팸이라고 하면 안되는 상황일때 사용

  • Recall = TP / (TP+FN)
    실제값이 P인 것 중에서 모델이 P라고 분류한 비율. Positive가 중요할 때 사용
    악성 종양을 양성이라고 하면 안 될 때

  • ROC
    수신자조작특성.
    True Positive Ratio(TPR, TP/(TP+FN))을 Y축. 1인 케이스를 1이라고 판별한 경우
    False Positive Ratio(FPR, FP/(FP+TN))를 X축. 0인 케이스를 1이라고 잘못 판별한 경우
    모델의 임계값을 변경시켜가면서 그리는 곡선이 ROC

  • AUC
    ROC 곡선의 면적을 표시한 것으로 0~1 사이의 값. 1에 가까울수록 예측이 잘 된 것.
    보통 랜덤한 값으로하면 0.5.


회귀 평가 지표

  • 평균제곱오차(MSE)

  • 평균제곱오차제곱근(RMSE)

  • 결정계수(R-Squared Score)


본 포스트의 학습 내용은 부스트클래스 <AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정> 강의 내용을 바탕으로 작성되었습니다.

profile
Backend Dev / Data Engineer

0개의 댓글