데이터 변환

Kyojun Jin·2024년 4월 8일
0

Data Science

목록 보기
9/14

모양 변환

Pivot

행 열 별 요약된 값으로 정렬해서 분석을 하고자 할 때 사용

Unpivot

컬럼 형태로 되어 있는 것을 행 형태로 바꿀 때 사용

파생 변수 생성

파생 변수

이미 수집된 변수 활용해서 새로운 변수 생성하는 경우
주관적일 수 있으며 논리적 타당성을 갖추어 개발해야 함.

요약 변수

원 데이터를 분석 Needs에 맞게 종합한 변수
빈도 카운팅, 집계의 개념

요약변수파생변수
매장 이용 횟수주 구매 매장
구매 상품 품목구매 상품 다양성

정규화

데이터의 속성값이 -1.0 ~ 1.0 같이 정해진 구간 내에 들도록 하는 기법

  • 최소-최대 변환 (0~1 사이 값으로 변환)
  • Z-score 변환 (표준화 값으로 변환)

데이터 분포의 변환

종속변수의 증가가 독립변수의 증가보다 급격 -> Log 변환
(기울기가 점점 기하급수적으로 증가)

반대는 square 변환
(기울기가 점점 내려감)

0개의 댓글

관련 채용 정보