ADsP, 20230411

cptkuk91·2023년 4월 11일

ADsP

목록 보기

1/4

데이터 웨어하우스와 사용자의 중간층에 위치, 하나의 주제 또는 하나의 부서 중심의 데이터 웨어하우스라고 할 수 있는 DB

변수를 조합해 변수명을 만들고 변수들의 시간, 상품 등의 차원에 결합해 다양한 요약변수와 파생변수를 쉽게 생성하여 데이터 마트를 구성할 수 있는 패키지

매우 주관적인 변수일 수 있으므로 논리적 타당성을 갖춰야 한다.

특정한 의미를 갖는 작위적 정의에 의한 변수, 사용자가 특정 조건을 만족하거나 특정 함수에 의해 값을 만들어 의미를 부여한 변수

모양을 만드는 함수

cast(md, id+variable~Time)

데이터를 재구성하기 위한 함수

aqm <- melt(airquality, id=c("Month", "day"), na.rm=TRUE)

R프로그램, 데이터셋에서 데이터의 내용을 조회할 때

# "iris" 데이터셋(DB)

sqldf("select*from iris")

chickwts 데이터 프레임에서 각 feed별, weight의 평균을 계산해 요약

ddply(chickwts, ~feed, summarize, groupmean=mean(weight))

complete.cases(): 결측값이 없으면 TRUE, 있으면 FALSE를 반환
is.na(): 결측값이 NA인지 여부를 판단하여 반환하는 함수
knnInputation(): NA값을 k 최근 이웃 분류 알고리즘을 사용하여 대치하는 함수로 k개 주변 이웃까지의 거리를 고려하여 가중 평균한 값을 대치해 주는 함수
rfImpute(): 랜덤 포레스트 모형의 경우, 결측값이 있으면 에러를 발생하기 때문에 랜덤포레스트 패키지에서 NA결측값을 대치하도록 하는 함수

complete Analysis는 불완전 자료를 모두 삭제, 부분적 관측 자료를 사용해 통계적 추론의 타당성 문제 발생
평균대치법은 자료의 평균값으로 결측값을 대치, 불완전 자료를 생성해 분석하는 방법
단순확률대치법은 평균대치법에서 추정량 표준오차의 과소 추정 문제를 보완하고자 고안된 방법
(과소 추정 문제: 추정하려는 모수(Parameter)의 실제 값보다 작은 값을 추정하는 문제)
다중대치법은 단순대치법을 한번하지 않고 m번 대치를 통해 m개의 가상적 완전 자료를 만들어서 분석하는 방법으로 1단계 대치(imputation step) → 2단계 분석(Analysis step) → 3단계 결합(Combination step)이다.

IQR=Q3-Q1이라고 할 때, Q1-1.5IQR < x < Q3+1.5IQR을 벗어나는 x를 이상치라고 규정한다.
(IQR은 데이터의 중간 50%)
이상치는 변수의 분포에서 벗어난 값으로 상자 그림을 통해 확인할 수 있다.
이상치는 분포를 왜곡할 수 있으나 실제 오류인자에 대해서는 통계적으로 실행하지 못하기 때문에 제거여부는 실무자들을 통해서 결정하는 것이 바람직하다.

적절한 이상치 검색을 활용한 응용시스템 
→ 한 집단에서 매우 크거나, 매우 작으면 의심되는 대상이므로 부정사용방지 시스템에 활용 가능

대부분의 객체들과 다른 객체들을 찾는 것이 목적이다. 속성값들의 일반적인 값들과 상당히 편차가 큰 값을 가지므로 편차 탐지(deviation detection)이라고도 한다. 그러나 이상치는 반드시 비정상인 객체를 의미하는 건 아니다.

군집분석 이용 시 멀리 떨어진 데이터는 성질이 다른 군집으로 나눌 때 이용

ESD(Extreme Studentized Deviation)
평균으로부터 t standard deviation 이상 떨어져 있는 값들을 이상값으로 판단하고 t는 3으로 설정하는 이상값 검색 알고리즘

사기탐지: 도난당한 신용카드의 구매 행위는 원 소유자의 행위와 다를 수 있다. 평상시의 행위와 다른 구매패턴을 조사하여 사기를 탐지할 수 있다.
의료: 특정 환자에게 보이는 예외적인 증세나 검사 결과는 잠재적인 건강 문제를 나타낸다.
침입탐지: 컴퓨터 네트워크에 대한 공격은 보편화되었다. 침입의 다수는 네트워크에 대한 예외적인 행위를 감시하는 경우에 탐지할 수 있다.