Data

jieuni·2020년 3월 26일
0

Data instance와 그들의 attributes의 collection

Components of the input(data)

  • Instances : 개별적이고 서로 독립적인 예제(행(row)에 해당)
    → Sample/point/record/object/case라고 부름
  • Attributes : instance의 특징을 결정, 측면을 측정할지, 어떤 정보를 모을지(열(col)에 해당)
    → Variable/feature/characteristic/field
    **내 문제에서 feature와 sample이 뭔지 알 수 있어야 한다.

Types of Variables

  1. Categorical
    nominal quantities
    값들은 서로 다른 symbol일 뿐이다.
    "outlook"에서 값에 "sunny", "overcast", "rainy"가 nomial 변수
    값들 사이에 단계가 없다.(순서나 거리가 없다.)
    ex) 정당 번호, 선수 등번호, 눈 색깔, 우편번호
    ordinal quantities
    순위를 부여할 수 있다.
    nominal과 ordinal을 완벽하게 구분할 수 있는 것은 아니다.
    값들 사이에 distance를 정의할 수 없다.(ex) "hot">"mild">"cool"에서 더운거랑 중간 사이의 거리, 이정도 거리가 지나면 춥다)
    ex) 학점, 키
  2. Numeric
    Discrete attributes
    integer, binary attributes
    Continuous attribute
    real numbers
    ex) 온도, 키, 몸무게

One-hot encoding

한개만 1이고 나머지는 0 → binary vector 사용
categorical data를 표현하는 표준화된 방법

feature가 3개에서 5개로 많아진다라는 단점

Data Quality

  1. missing values(결측 데이터)
    why? error, 정보 수집 x etc.
    데이터 테이블에서 주로 빈 공간이나 NaN로 표시, 무시할 경우 예측할 수 없는 결과를 낳는다. 0으로 표시하면 안됨.
    처리방법
    • Eliminate Data Objects
      장점 : 편리함
      단점 : 정보 손실
      • 샘플 수 부족 → 신뢰성 있는 분석 불가
      • 피처 수 부족 → 샘플에 관한 정보 부족
    • Estimate Missing Values(imputation) 결측값 보정
      1) Use mean value(평균 보정법) : 열(column) 평균 사용
      2) K-Nearest-neighbor based imputation : 자기와 가장 비슷한 값
      3) Model-based imputation
  2. Noise and outliers(이상값)
    outlier는 샘플(data object)을 이루는 말로 동떨어진 데이터를 의미한다.
    why? measurement error, human error, sampling error, natural outlier
    detection
    • Visualize the distribution
    • Use statistical methods
      outlier 처리방법
    • 단순 삭제
    • 다른 값으로 대체
      1) 평균 등
      2) 회귀모형 등 예측 모델을 이용
      이상값은 대체하기 보다는 삭제
    • 변수화
    • 리샘플링
      노이즈 처리
    • Collecting more data
    • Smoothing by binning(disretization)
    • Regularization
  3. Duplicate data

0개의 댓글