(ADsP) 14. 데이터 탐색

후웅후웅·2024년 2월 15일

목록 보기

14/23

(1) 탐색적 데이터 분석(EDA)

탐색적 데이터 분석(EDA : Exploratory Data Analysis)이란 데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통곗값과 분포 등을 시각화하고 분석하는 것을 말한다.
탐색적 데이터 분석을 통해 데이터 특성을 이해하고 이를 토대로 분석 모델을 구축할 수 있다.

(2) 붓꽃(IRIS) 데이터를 이용한 탐색적 데이터 분석의 예

붓꽃(IRIS)데이터는 통계학자 피셔의 붓꽃 분류 연구에 기반한 데이터로 R실습에 자주 활용된다.
세 가지 붓꽃 종(Species)에 따른 꽃받침 길이(Sepal Length), 꽃받침 폭(Sepal Width), 꽃잎 길이(Petal Length), 꽃잎 폭(Petal Width)을 기록한 데이터다.
붓꽃(IRIS) 데이터는 R에 기본 데이터로 내장되어 있으며, iris라는 데이터프레임을 불러올 수 있다.
데이터 구조(structure)를 파악하기 위한 명령어 str를 활용한다면 위와 같은 결과를 얻을 수 있다. 데이터 타입은 data.frame이며, 150개의 행(또는 row 또는 observation)과 5개의 열(또는 column, 또는 변수 variables)로 구성되어 있다. $뒤에 표시된 단어는 iris데이터의 변수들을 의미하며 'num'또는'Factor'는 각 변수의 type을 나타낸다.

(1) 결측값

결측값은 존재하지 않는 데이터를 의미하며, NA로 표현하지만 데이터를 수집하는 환경에 따라 null, 공백, -1 등 다양하게 표현될 수 있다.
데이터 분석에 앞서 결측값 처리는 중요한 과제 중 하나다. 결측값을 삭제하는 것이 일반적이나 경우에 따라 의미를 갖는 경우도 있다.
결측값 처리를 위한 대표적인 패키지로 Amelia와 DMwR2패키지가 있다.

(2) ⭐결측값 대치 방법⭐
1. 단순 대치법

관측 또는 실험으로 얻는 데이터를 대표할 수 있는 평균 혹은 중앙값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만드는 방법이다.
비조건부 평균 대치법과 조건부 평균 대치법이 있다. 비조건부 평균 대치법은 데이터의 평균값으로 결측값을 대치하는 반면 조건부 평균 대치법은 실제 값들을 분석하여 회귀분석을 활용하는 대치 방법이다.
평균값 혹은 중앙값을 직접 구하여 결측값을 대치해도 되지만 DMwR2 패키지의 central Imputtation함수를 사용하여 쉽게 대치할 수 있다.

평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안된 방법이다. 대표적인 방법으로 K-Nearest Neighbor 방법이 있다.
K-Nearest Neighbor 방법 : K 최근접 이웃 알고리즘으로 주변 K개의 데이터 중 가장 많은 데이터로 대치하는 방법이다. 아래 그림에서 K = 1인 경우 결측값으로 파란색이 유력해 보이지만 K = 4인 경우에는 결측값으로 검정색이 융력해 보인다. 따라서 주변 몇개의 데이터가 결측값을 대치하기 좋은가에 대한 K를 선정하기가 쉽지 않다.

(1) 이상값

이상값이란 값이 존재하지 않는 결측값과 달리 다른 데이터와 비교하였을 때 극단적으로 크거나 극단적으로 작은 값을 의미한다.
이상값은 데이터를 입력하는 과정에서 입력자의 실수로 입력되거나 설문응답자의 악의적인 의도에 의해 입력될 수 있다. 결측값과 마찬가지로 이상값도 제거하는 것이 일반적이지만 의미를 갖는 경우도 있으므로 목적이나 종류에 따라 사용자의 적절한 판단이 필요하다. 이상값을 판단하는 일반적인 방법을 알아보자.

(2) ⭐이상값 판단⭐
1. ESD(Extreme Studentized Deviation)

ESD는 평균으로부터 '표준편차 3'만큼 떨어진 값들을 이상값으로 인식하는 방법이다. 정규분포에서 99.7%의 자료들은 '표준편차 3'안에 위치하므로 전체 데이터의 약 0.3퍼센트를 이상값으로 구분한다.

사분위수를 이용하여 25%에 해당하는 값(Q1)과 75%에 해당하는 값(Q3)을 활용하여 이상치를 반단하는 방법이다. 자료를 크기 순서대로 나열했을 때 다음 그림과 같이 사분위수로 나눌 수 있다.
가장 작은 하한 사분위수를 Q1이라고 하고, 가장 큰 사분위수인 상항 사분위수는 Q3라고 한다. 여기서 IQR이란 사분위의 정상범위인 Q1과 Q3 사이를 의미하며, 사분범위(Interquartile Range, IQR)라고 한다.
일반적으로 사분범위에서 1.5분위수를 벗어나는 경우 이상치로 판단한다. 다시 말해 Q1-1.5IQR(하한 최솟값)보다 작거나 Q3+1.5IQR(상한 최댓값)보다 큰 값은 이상값으로 간주한다.
시각적으로 상자 그림의 아웃라이어에 위치해 점으로 표현된 데이터를 이상값으로 판단할 수 있다.

뭐든 열심히

ADsP