1-1 정형 데이터

마친자·2024년 1월 15일

1.정형 데이터

정형 데이터: 엑셀 파일 형식이나 관계형 데이터베이스의 테이블에 담을수 있는 데이터 행(row)과 열(column)으로 표현 가능한 데이터. 하나의 행은 하나의 데이터 인스턴스를 나타내고, 각 열을 데이터의 피처를 나타냄

비정형 데이터: 이미지, 비디오, 음성, 자연어 등의 정제되지 않은 데이터

정형데이터의 중요성
요즘 비정형 데이터가 핫한데 말이여.. 그 이유는?!

  • 범용적인 데이터
    • 사람,기업,현상, 사회의 많은 부분들이 정형데이터로 기록
    • 가장 기본적인 데이터이며 분야를 막론하고 가장 많이 쓰임

정형데이터의 분석능력이란?

데이터에 대한 상상력, 통찰력,
다양한 경험으로 한 분야에 국한되지 않고 범용적으로 쓰일수 있는능력
ex) 비행기로 생존률 높이기

2.데이터 및 문제 이해

2009년12월~ 2011년 11월 온라인 상점의 거래 데이터
행수는 780,502개, 컬럼은 9개의 컬럼으로 구성

X: 5914명의 2009년 12월~2011년 11월까지의 구매기록
Y: 2011년 12월 총 구매액 300 초과 여부
-> 우량고객 예측

3. 평가지표 이해

분류: 예측해야할 대상의 개수가 정해져있는 문제
예) 이미지에서 개,고양이 분류, 신용카드 거래가 사기 거래인지 정상 거래인지 분류
회귀: 예측해야할 대상이 연속적인 숫자인 문제
예) 일기예보에서 내일의 기온 예측, 주어진 데이터에서 집값 예측

  • accuracy: TP+TN/TP + TN + FP + FN
    불균형 데이터에 사용하기에는 부적합
  • Precision: TP/ TP+FP (P로 예측한것 중 정확히 P인것)
    NEGATIVE 데이터가 중요할떄 사용, 즉 NEGATIVE 데이터를 POSITIVE라고 분류하면 안될떄 사용 EX) 스팸메일(일반메일을 스팸메일로 본다면 안돼~)
  • Recall: TP/ TP+FN
    POSITIVE 데이터가 중요할떄 사용, 즉 POSITIVE 데이터를 NEGATIVE 라고 분류하면 안될떄 사용 EX) 악성여부!
  • ROC
    1인 케이스 1로 잘 예측한것을 Y축
    0인 케이스를 1로 예측한 것을 x축
    -AUC:
    ROC 곡선의 면적 -> 1에 가까울수록 잘 예측한 것
    0.5보다는 최소한 높게 해야함
profile
마루에 미친자

0개의 댓글