데이터크리닝

Kyojun Jin·2024년 4월 8일
0

Data Science

목록 보기
7/14

데이터 전처리

데이터 전처리는 무조건 한다.
왜냐하면 분석에서 요구하는 형태와 크기가 다를 수 있기 때문

결측치

존재하지 않고 비어 있는 상태
DB에서의 NULL값
데이터를 채울 필요가 있다.

처리 방법

수작업
특정값
평균값
가장 가능성이 높은 값(회귀분석, 보간법)
해당 데이터 행을 제거

이상치

이상하게 튀어 있는 거

처리 방법

탐지 방법: 산점도나 박스플롯 그려보기

수치 방법:

  • 분산: 정규분포에서 97.5% 또는 2.5% 이하에 위치한 값
  • Likelihood: 베이즈정리에 의해 데이터세트가 가지는 정상/이상 샘플에 대한 발생확률
  • Local Outlier Factor
    관측치의 비정상적인 정도를 반영하는 점수 계산
    밀도와 거리를 둘 다 보는 방법

노이즈

기타 잡음 요소
데이터 오류 (자료형 다르다거나 범위 넘어간다거나)
중복 데이터도 오류에 포함
DB정규화 vs 비정규화
데이터레벨의 차이

처리 방법

구간화
데이터 값을 구간화하고 구간의 평균, 중앙, 경계값을 사용

회귀
회귀 함수로 데이터를 평활화

군집화
유사한 값끼리 그룹화하여 군집의 센터값(ex 평균)을 사용

0개의 댓글

관련 채용 정보