데이터 마트
데이터 웨어하우스와 사용자의 중간층에 위치, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있는 DB
reshape
- 데이터를 원하는 형태로 바꿔주는 melt함수와 원하는 부분만 선택하는 cast함수로 구성
변수를 조합해 변수명을 만들고 변수들의 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성할 수 있는 패키지
파생변수
- 매우 주관적인 변수일 수 있으므로 논리적 타당성을 갖춰야 한다.
- 특정한 의미를 갖는 작위적 정의에 의한 변수, 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수
cast 함수
모양을 만드는 함수
- ID, Variable을 기준으로 잡고, Time에 대한 Value 확인 예시
cast(md, id+variable~Time)
melt 함수
데이터를 재구성하기 위한 함수
- NA값 제외 → na.rm=TRUE
- Month, Day 기준으로 재정의
aqm <- melt(airquality, id=c("Month", "day"), na.rm=TRUE)
sqldf
R프로그램, 데이터셋에서 데이터의 내용을 조회할 때
# "iris" 데이터셋(DB)
sqldf("select*from iris")
ddply
chickwts 데이터 프레임에서 각 feed별, weight의 평균을 계산해 요약
ddply(chickwts, ~feed, summarize, groupmean=mean(weight))
결측치
- 해당 칸이 비어있는 경우 결측치 여부 파악이 쉽다.
- 결측치가 있는 경우 다양한 대치(Imputation)방법을 사용하여 완전한 자료로 만든 후 분석을 진행할 수 있다.
- 결측치가 20% 이상인 경우에는 해당 변수를 제거하고 분석해야 한다.
결측값 대치 활용 R함수의 종류
- complete.cases(): 결측값이 없으면 TRUE, 있으면 FALSE를 반환
- is.na(): 결측값이 NA인지 여부를 판단하여 반환하는 함수
- knnInputation(): NA값을 k 최근 이웃 분류 알고리즘을 사용하여 대치하는 함수로 k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 대치해 주는 함수
- rfImpute(): 랜덤 포레스트 모형의 경우, 결측값이 있으면 에러를 발생하기 때문에 랜덤포레스트 패키지에서 NA결측값을 대치하도록 하는 함수
결측값 처리 방법
- complete Analysis는 불완전 자료를 모두 삭제, 부분적 관측 자료를 사용해 통계적 추론의 타당성 문제 발생
- 평균대치법은 자료의 평균값으로 결측값을 대치, 불완전 자료를 생성해 분석하는 방법
- 단순확률대치법은 평균대치법에서 추정량 표준오차의 과소 추정 문제를 보완하고자 고안된 방법
(과소 추정 문제: 추정하려는 모수(Parameter)의 실제 값보다 작은 값을 추정하는 문제)
- 다중대치법은 단순대치법을 한번하지 않고 m번 대치를 통해 m개의 가상적 완전 자료를 만들어서 분석하는 방법으로 1단계 대치(imputation step) → 2단계 분석(Analysis step) → 3단계 결합(Combination step)이다.
결측치
이상치 판정 방법
- IQR=Q3-Q1이라고 할 때, Q1-1.5IQR < x < Q3+1.5IQR을 벗어나는 x를 이상치라고 규정한다.
(IQR은 데이터의 중간 50%)
- 이상치는 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인할 수 있다.
- 이상치는 분포를 왜곡할 수 있으나 실제 오류인자에 대해서는 통계적으로 실행하지 못하기 때문에 제거여부는 실무자들을 통해서 결정하는 것이 바람직하다.
적절한 이상치 검색을 활용한 응용시스템
→ 한 집단에서 매우 크거나, 매우 작으면 의심되는 대상이므로 부정사용방지 시스템에 활용 가능
이상치
대부분의 객체들과 다른 객체들을 찾는 것이 목적이다. 속성값들의 일반적인 값들과 상당히 편차가 큰 값을 가지므로 편차 탐지(deviation detection)이라고도 한다. 그러나 이상치는 반드시 비정상인 객체를 의미하는 건 아니다.
- 데이터를 측정과정이나 입력하는 과정에서 잘못 포함된 이상치는 삭제한 후 분석한다.
- 설명변수의 관측치에 비해 종속변수의 값이 상이한 값을 이상치라 한다.
- 통상 평균으로부터 표준편차의 3배가 되는 점을 기준으로 이상치를 정의한다.
군집분석 이용 시 멀리 떨어진 데이터는 성질이 다른 군집으로 나눌 때 이용
이상값(outlier)
- 부정사용방지 시스템이나 부도예측시스템에서는 이상값(outlier)라도 의미가 있으므로 제거하지 않는다.
- 이상값 인식에 있어서 가장 많이 활용하는 방법은 ESD로 평균에서 3표준편차를 벗어나는 경우 이상값으로 인식하는 방법이다.
- 의도하지 않게 잘못 입력된 데이터의 경우 bad data에 해당, 데이터를 제거하여 분석한다.
- 이상치를 절단이나 조정하는 경우 제거방법에 비해 데이터 손실율이 낮아지기 때문에 설명력이 높아진다.
ESD(Extreme Studentized Deviation)
평균으로부터 t standard deviation 이상 떨어져 있는 값들을 이상값으로 판단하고 t는 3으로 설정하는 이상값 검색 알고리즘
이상치 적용 예시
- 사기탐지: 도난당한 신용카드의 구매 행위는 원 소유자의 행위와 다를 수 있다. 평상시의 행위와 다른 구매패턴을 조사하여 사기를 탐지할 수 있다.
- 의료: 특정 환자에게 보이는 예외적인 증세나 검사 결과는 잠재적인 건강 문제를 나타낸다.
- 침입탐지: 컴퓨터 네트워크에 대한 공격은 보편화되었다. 침입의 다수는 네트워크에 대한 예외적인 행위를 감시하는 경우에 탐지할 수 있다.