[ADsP] 6강 데이터 마트

Data_Student·2024년 10월 24일
0

ADsP

목록 보기
6/11

[ADsP] 6강 데이터 마트

02 데이터 마트

1. 데이터 마트의 이해

1) 데이터 마트
 - 데이터 분석을 하기 앞서 분석 목적에 맞춰 데이터를 수집, 변형하는 과정이 필요
 - 데이터 마트 : 특정 주제, 부서별로 추출하여 모은 비교적 작은 규모의 데이터 웨어하우스
 
2) 데이터 전처리
 - 데이터 정제와 변수 처리를 포함하는 광의의 개념
 - 결측값과 이상값을 처리하는 과정
 참고 - 요약변수, 파생변수
  - 요약변수 : 원래의 데이터로부터 기초적인 통계 자료를 추출한 변수를 의미
                  총 합계, 평균 등이며, 재활용성이 높고, 기초 통계자료가 속함
  - 파생변수 : 특정한 목적을 갖고 조건을 만족하는 변수들을 새롭게 생성한 것

2. 데이터 마트 개발을 위한 R 패키지 활용(참고만)

1) reshape 패키지
2) sqldf 패키지
3) plyr 패키지
4) data.table 패키지

03 데이터 탐색

1. 탐색적 데이터 분석(EDA)

1) 탐색적 데이터 분석(EDA) - 기초분석
 - 데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통곗값과 분포 등을 시각화하고 분석하는 것

2. 결측값

1) 결측값
 - 존재하지 않는 데이터를 의미, NA로 표현(null, 공백, -1 등으로도 표현 가능)
 
2) 결측값 대치 방법 ★★
 (1) 단순 대치법
  - 결측값이 존재하는 데이터를 삭제하는 방법
  - 결측값이 많은 경우 대량의 데이터 손실이 발생
 (2) 평균 대치법
  - 평균 또는 중앙갑으로 결측값을 대치하여 완전한 자료로 만드는 방법
  - 비조건부 평균 대치법 : 데이터의 평균값으로 대치
  - 조건부 평균 대치법 : 실제 값을들 분석하여 회귀분석을 활용한 대치
 (3) 단순 확률 대치법
  - K-Nearest Neighbor 방법 : K 최근접 이웃 알고리즘으로 주변 K개의 데이터 중 가장 많은 데이터로 대치하는 방법
 (4) 다중 대치법 
  - 여러 번의 대치를 통해 n개의 임의 완전자료를 만드는 방법
  - 대치, 분석, 결합의 세 단계로 구성

3. 이상값

1) 이상값
 - 다른 데이터와 비교했을 때 극단적으로 크거나 작은 값을 의미
 - 데이터 입력 과정의 실수 또는 악의적인 의도로 입력
 
2) 이상값 판단
 (1) ESD(Extreme Studentized Deviation)
  - 평균으로부터 '표준편차 3'만큼 떨어진 값들을 이상값을 인식하는 방법
 (2) 사분위수
  - 측정값을 최솟값에서 최댓값까지 오름차순으로 정렬한 자료를 4등분했을때 각 등분 위치에 해당하는 값
  - IQR : Q1~Q3까지의 범위
  - 중앙값 : Q2
  - 보통 박스그래프로 표현

0개의 댓글