실습코드: https://colab.research.google.com/drive/1GBIe26q6eMd_5EOJSv8k8ZFsLZmR3lst?usp=sharing
1. R reshape 이용한 데이터 마트 개발
가. Data Mart
데이터 웨어하우스와 사용자 사이의 중간층에 위치한 것
하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스
나. 요약 변수
- 수집된 정보를 분석에 맞게 종합한 변수
- 데이터마트에서 가장 기본적인 변수로 데이터 분석을 위해 만들어진 변수
- 여러 모델에서 활용될 수 있으므로 재활용성이 높음
- 예시
기간별 구매, 횟수 여부
위클리 쇼퍼
상품별 구매 금액, 회수 여부
상품별 구매 순서
단어 빈도
초기 행동 변수
트렌드 변수
결측값과 이상값 처리
연속형 변수의 구간화
다. 파생변수
- 특정조건을 만족하거나 특정 함수에 의해 값을 만들어 의미 부여한 변수
- 주관적일 수 잇으므로 논리적 타당성을 갖추어 개발해야 함
- 세분화, 고객행동예측, 캠페인 반응 예측에 매우 잘 활용
- 상황에 따라 데이터 의미가 달라지지 않도록 대표성을 나타내게 해야함
- 예시
근무시간 구매지수
주 구매 매장 변수
주 활동 지역 변수
구매상품 다양성 변수
선호하는 가격대 변수
라이프스타일 변수
행사민감 변수
휴면가망 변수
최대가치 변수
최적 통화 시간
라. r의 reshape
melt: 특정 컬럼들을 변수값으로 갖도록 데이터 프레임을 녹이는 작업
cast: melt로 녹인 배열을 원하는 형태로 계산, 변형시키는 함수
2. sqldf를 이용한 데이터 분석
3. plyr를 이용한 데이터 분석
- plyr: apply 함수에 기반해 데이터와 출력변수를 동시에 배열로 치환하여 처리하는 패키지
- split-apply-combine: 데이터를 분리하고 처리한 다음, 다시 결합하는 등 필수적인 데이터 처리 기능 제공
3. 데이터 테이블
- 기존 data.frame 보다 월등히 빠른 속도
- 특정 column을 key값으로 색인을 지정한 후 데이터 처리
- 빠른 grouping, ordering, 짧은 문장 지원 측면에서 데이터프레임보다 유용