오늘부터 부스트캠프 AI Tech 준비과정에 입소했다. 성실하게 강의 잘 수강해서 잘 마쳐보자. 화이팅!
Structured Data 라고하며 관계형 DB나 엑셀처럼 행(row)과 열(column)로 표현이 가능한 데이터를 말한다.
행 하나는 데이터 인스턴스, 각 열은 데이터의 피처를 나타낸다.
비정형 데이터 : 이미지, 비디오, 자연어 등 정제되지 않은 데이터
딥러닝으로 인해 최근 중요도가 매우 상승
정형데이터는 가장 기본적이고 사회의 많은 부분이 정형데이터로 남으므로 기본적으로 가장 중요.
정형데이터를 통해 의미 있는 데이터를 뽑아내려면 많은 가설을 세우고 실험, 검증하는 것이 필요하다.
Train - Valid - Test 전략을 잘 세워야한다.
분류(Classification) : 예측해야할 대상의 개수가 정해진 문제.
ex) 이미지에서 사람과 원숭이 분류
회귀(Regression) : 예측해야할 대상이 연속적인 숫자인 문제
ex) 일기예보에서 내일 온도 예측
평가지표(Evaluation Metric) : 분류, 회귀 머신러닝 문제의 성능을 평가할 지표
TP(정답이 P고 모델도 P), TN(정답이 N이고 모델도 N), FP(정답이 N인데 모델은 P라고 잘못 예측), FN(정답은 P인데 모델은 N이라고 잘못 예측)
Accuracy = (TP+TN) / (TP+TN+FP+FN)
정확도. 전체 데이터 중 모델이 바르게 분류한 비율
매일 비가 안온다고 해도 정확도가 70%이상인데 이걸 가지고 정확하다고는 할 수 없으므로 완전한 지표 x
Precision = TP / (TP+FP)
N인 지표를 P라고 하면 안될때. Negative가 중요할 때 사용
스팸메일 걸러낼때 일반 메일을 스팸이라고 하면 안되는 상황일때 사용
Recall = TP / (TP+FN)
실제값이 P인 것 중에서 모델이 P라고 분류한 비율. Positive가 중요할 때 사용
악성 종양을 양성이라고 하면 안 될 때
ROC
수신자조작특성.
True Positive Ratio(TPR, TP/(TP+FN))을 Y축. 1인 케이스를 1이라고 판별한 경우
False Positive Ratio(FPR, FP/(FP+TN))를 X축. 0인 케이스를 1이라고 잘못 판별한 경우
모델의 임계값을 변경시켜가면서 그리는 곡선이 ROC
AUC
ROC 곡선의 면적을 표시한 것으로 0~1 사이의 값. 1에 가까울수록 예측이 잘 된 것.
보통 랜덤한 값으로하면 0.5.
평균제곱오차(MSE)
평균제곱오차제곱근(RMSE)
결정계수(R-Squared Score)
본 포스트의 학습 내용은 부스트클래스 <AI 엔지니어 기초 다지기 : 부스트캠프 AI Tech 준비과정> 강의 내용을 바탕으로 작성되었습니다.