(ADsP) 14. 데이터 탐색

후웅후웅·2024년 2월 15일

ADsP

목록 보기
14/23

1) 탐색전 데이터 분석(EDA)

(1) 탐색적 데이터 분석(EDA)

  • 탐색적 데이터 분석(EDA : Exploratory Data Analysis)이란 데이터를 이해하고 의미 있는 관계를 찾아내기 위해 데이터의 통곗값과 분포 등을 시각화하고 분석하는 것을 말한다.
  • 탐색적 데이터 분석을 통해 데이터 특성을 이해하고 이를 토대로 분석 모델을 구축할 수 있다.

(2) 붓꽃(IRIS) 데이터를 이용한 탐색적 데이터 분석의 예

  • 붓꽃(IRIS)데이터는 통계학자 피셔의 붓꽃 분류 연구에 기반한 데이터로 R실습에 자주 활용된다.
  • 세 가지 붓꽃 종(Species)에 따른 꽃받침 길이(Sepal Length), 꽃받침 폭(Sepal Width), 꽃잎 길이(Petal Length), 꽃잎 폭(Petal Width)을 기록한 데이터다.
  • 붓꽃(IRIS) 데이터는 R에 기본 데이터로 내장되어 있으며, iris라는 데이터프레임을 불러올 수 있다.
  • 데이터 구조(structure)를 파악하기 위한 명령어 str를 활용한다면 위와 같은 결과를 얻을 수 있다. 데이터 타입은 data.frame이며, 150개의 행(또는 row 또는 observation)과 5개의 열(또는 column, 또는 변수 variables)로 구성되어 있다. $뒤에 표시된 단어는 iris데이터의 변수들을 의미하며 'num'또는'Factor'는 각 변수의 type을 나타낸다.

2) 결측값

(1) 결측값

  • 결측값은 존재하지 않는 데이터를 의미하며, NA로 표현하지만 데이터를 수집하는 환경에 따라 null, 공백, -1 등 다양하게 표현될 수 있다.
  • 데이터 분석에 앞서 결측값 처리는 중요한 과제 중 하나다. 결측값을 삭제하는 것이 일반적이나 경우에 따라 의미를 갖는 경우도 있다.
  • 결측값 처리를 위한 대표적인 패키지로 Amelia와 DMwR2패키지가 있다.

(2) ⭐결측값 대치 방법⭐
1. 단순 대치법

  • 결측값이 존재하는 데이터를 삭제하는 방법이다.
  • 가장 쉬운 결측값 처리 방법이지만 결측값이 많은 경우 대량의 데이터 손실이 발생할 수 있다.
  • 단순 대치법을 위한 함수로 complete.cases함수가 있다.
  • complete.cases는 하나의 열에 결측값이 존재하면 FALSE, 존재하지 않으면 TRUE를 반환한다.
  1. 평균 대치법
  • 관측 또는 실험으로 얻는 데이터를 대표할 수 있는 평균 혹은 중앙값으로 결측값을 대치하여 불완전한 자료를 완전한 자료로 만드는 방법이다.
  • 비조건부 평균 대치법과 조건부 평균 대치법이 있다. 비조건부 평균 대치법은 데이터의 평균값으로 결측값을 대치하는 반면 조건부 평균 대치법은 실제 값들을 분석하여 회귀분석을 활용하는 대치 방법이다.
  • 평균값 혹은 중앙값을 직접 구하여 결측값을 대치해도 되지만 DMwR2 패키지의 central Imputtation함수를 사용하여 쉽게 대치할 수 있다.
  1. 단순 확률 대치법
  • 평균 대치법에서 추정량 표준 오차의 과소 추정 문제를 보완하고자 고안된 방법이다. 대표적인 방법으로 K-Nearest Neighbor 방법이 있다.

  • K-Nearest Neighbor 방법 : K 최근접 이웃 알고리즘으로 주변 K개의 데이터 중 가장 많은 데이터로 대치하는 방법이다. 아래 그림에서 K = 1인 경우 결측값으로 파란색이 유력해 보이지만 K = 4인 경우에는 결측값으로 검정색이 융력해 보인다. 따라서 주변 몇개의 데이터가 결측값을 대치하기 좋은가에 대한 K를 선정하기가 쉽지 않다.

  1. 다중 대치법
  • 여러 번의 대치를 통해 n개의 임의 완전자료를 만드는 방법으로, 결측값 대치, 분석, 결합의 세 단계로 구성되어 있다.

3) 이상값

(1) 이상값

  • 이상값이란 값이 존재하지 않는 결측값과 달리 다른 데이터와 비교하였을 때 극단적으로 크거나 극단적으로 작은 값을 의미한다.
  • 이상값은 데이터를 입력하는 과정에서 입력자의 실수로 입력되거나 설문응답자의 악의적인 의도에 의해 입력될 수 있다. 결측값과 마찬가지로 이상값도 제거하는 것이 일반적이지만 의미를 갖는 경우도 있으므로 목적이나 종류에 따라 사용자의 적절한 판단이 필요하다. 이상값을 판단하는 일반적인 방법을 알아보자.

(2) ⭐이상값 판단⭐
1. ESD(Extreme Studentized Deviation)

  • ESD는 평균으로부터 '표준편차 3'만큼 떨어진 값들을 이상값으로 인식하는 방법이다. 정규분포에서 99.7%의 자료들은 '표준편차 3'안에 위치하므로 전체 데이터의 약 0.3퍼센트를 이상값으로 구분한다.
  1. 사분위수
  • 사분위수를 이용하여 25%에 해당하는 값(Q1)과 75%에 해당하는 값(Q3)을 활용하여 이상치를 반단하는 방법이다. 자료를 크기 순서대로 나열했을 때 다음 그림과 같이 사분위수로 나눌 수 있다.
  • 가장 작은 하한 사분위수를 Q1이라고 하고, 가장 큰 사분위수인 상항 사분위수는 Q3라고 한다. 여기서 IQR이란 사분위의 정상범위인 Q1과 Q3 사이를 의미하며, 사분범위(Interquartile Range, IQR)라고 한다.
  • 일반적으로 사분범위에서 1.5분위수를 벗어나는 경우 이상치로 판단한다. 다시 말해 Q1-1.5IQR(하한 최솟값)보다 작거나 Q3+1.5IQR(상한 최댓값)보다 큰 값은 이상값으로 간주한다.
  • 시각적으로 상자 그림의 아웃라이어에 위치해 점으로 표현된 데이터를 이상값으로 판단할 수 있다.
profile
뭐든 열심히

0개의 댓글