[ADsP] 6강 데이터 마트
02 데이터 마트
1. 데이터 마트의 이해
1) 데이터 마트
- 데이터 분석을 하기 앞서 분석 목적에 맞춰 데이터를 수집, 변형하는 과정이 필요
- 데이터 마트 : 특정 주제, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스
2) 데이터 전처리
- 데이터 정제와 변수 처리를 포함하는 광의의 개념
- 결측값과 이상값을 처리하는 과정
참고 - 요약변수, 파생변수
- 요약변수 : 원래의 데이터로부터 기초적인 통계 자료를 추출한 변수를 의미
총 합계, 평균 등이며, 재활용성이 높고, 기초 통계자료가 속함
- 파생변수 : 특정한 목적을 갖고 조건을 만족하는 변수들을 새롭게 생성한 것
2. 데이터 마트 개발을 위한 R 패키지 활용(참고만)
1) reshape 패키지
2) sqldf 패키지
3) plyr 패키지
4) data.table 패키지
03 데이터 탐색
1. 탐색적 데이터 분석(EDA)
1) 탐색적 데이터 분석(EDA) - 기초분석
- 데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통곗값과 분포 등을 시각화하고 분석하는 것
2. 결측값
1) 결측값
- 존재하지 않는 데이터를 의미, NA로 표현(null, 공백, -1 등으로도 표현 가능)
2) 결측값 대치 방법 ★★
(1) 단순 대치법
- 결측값이 존재하는 데이터를 삭제하는 방법
- 결측값이 많은 경우 대량의 데이터 손실이 발생
(2) 평균 대치법
- 평균 또는 중앙갑으로 결측값을 대치하여 완전한 자료로 만드는 방법
- 비조건부 평균 대치법 : 데이터의 평균값으로 대치
- 조건부 평균 대치법 : 실제 값을들 분석하여 회귀분석을 활용한 대치
(3) 단순 확률 대치법
- K-Nearest Neighbor 방법 : K 최근접 이웃 알고리즘으로 주변 K개의 데이터 중 가장 많은 데이터로 대치하는 방법
(4) 다중 대치법
- 여러 번의 대치를 통해 n개의 임의 완전자료를 만드는 방법
- 대치, 분석, 결합의 세 단계로 구성
3. 이상값
1) 이상값
- 다른 데이터와 비교했을 때 극단적으로 크거나 작은 값을 의미
- 데이터 입력 과정의 실수 또는 악의적인 의도로 입력
2) 이상값 판단
(1) ESD(Extreme Studentized Deviation)
- 평균으로부터 '표준편차 3'만큼 떨어진 값들을 이상값을 인식하는 방법
(2) 사분위수
- 측정값을 최솟값에서 최댓값까지 오름차순으로 정렬한 자료를 4등분했을때 각 등분 위치에 해당하는 값
- IQR : Q1~Q3까지의 범위
- 중앙값 : Q2
- 보통 박스그래프로 표현