[3] 3-1 데이터 변경 및 요약

jdsilver96·2022년 2월 20일
0

adsp

목록 보기
24/26

실습코드: https://colab.research.google.com/drive/1GBIe26q6eMd_5EOJSv8k8ZFsLZmR3lst?usp=sharing

1. R reshape 이용한 데이터 마트 개발

가. Data Mart

데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것
하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스

나. 요약 변수

  • 수집된 정보를 분석에 맞게 종합한 변수
  • 데이터마트에서 가장 기본적인 변수로 데이터 분석을 위해 만들어진 변수
  • 여러 모델에서 활용될 수 있으므로 재활용성이 높음
  • 예시
기간별 구매, 횟수 여부
위클리 쇼퍼
상품별 구매 금액, 회수 여부
상품별 구매 순서
단어 빈도
초기 행동 변수
트렌드 변수
결측값과 이상값 처리
연속형 변수의 구간화

다. 파생변수

  • 특정조건을 만족하거나 특정 함수에 의해 값을 만들어 의미 부여한 변수
  • 주관적일 수 잇으므로 논리적 타당성을 갖추어 개발해야 함
  • 세분화, 고객행동예측, 캠페인 반응 예측에 매우 잘 활용
  • 상황에 따라 데이터 의미가 달라지지 않도록 대표성을 나타내게 해야함
  • 예시
근무시간 구매지수
주 구매 매장 변수
주 활동 지역 변수
구매상품 다양성 변수
선호하는 가격대 변수
라이프스타일 변수
행사민감 변수
휴면가망 변수
최대가치 변수
최적 통화 시간

라. r의 reshape

melt: 특정 컬럼들을 변수값으로 갖도록 데이터 프레임을 녹이는 작업
cast: melt로 녹인 배열을 원하는 형태로 계산, 변형시키는 함수

2. sqldf를 이용한 데이터 분석

3. plyr를 이용한 데이터 분석

  • plyr: apply 함수에 기반해 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지
  • split-apply-combine: 데이터를 분리하고 처리한 다음, 다시 결합하는 등 필수적인 데이터 처리 기능 제공

3. 데이터 테이블

  • 기존 data.frame 보다 월등히 빠른 속도
  • 특정 column을 key값으로 색인을 지정한 후 데이터 처리
  • 빠른 grouping, ordering, 짧은 문장 지원 측면에서 데이터프레임보다 유용
profile
데이터사이언티스트(NLP)

0개의 댓글