데이터 탐색과 시각화

Jinyeong Choi·2024년 7월 24일
0

ML

목록 보기
1/6
post-thumbnail

데이터의 형태와 분포, 탐색적 데이터 분석과 상관성 분석, 그리고 시각화 기법들에 대해 설명.

GIGO
Garbage In, Garbage Out
가치가 없는 잘못된 데이터를 사용하면 역시 무가치한 결과가 나온다는 뜻.
원천 데이터(raw data)는 수많은 오류와 이상치를 가지고 있는 경우가 많기 때문에 다양한 각도에서 데이터를 탐색하고 시각화하여 가치있는 데이터로 정제해야한다.

10.1 탐색적 데이터 분석(EDA)

EDA

Exploratory Data Analysis의 약자로, 가공하지 않은 원천의 데이터를 있는 그대로 탐색하고 분석하는 기법.

  • EDA를 할 때에는 극단적인 해석은 피해야 하며 지나친 추론이나 자의적 해석도 지양해야 한다.
  • EDA를 하는 주요 목적 5가지:
  1. 데이터의 형태와 척도가 분석에 알맞게 되어있는지 확인.
  2. 데이터의 평균, 분산, 분포, 패턴 등의 확인을 통해 데이터 특성 파악
  3. 데이터의 결측값이나 이상치 파악 및 보완
  4. 변수 간의 관계성 파악
  5. 분석 목적과 방향성 점검 및 보정

10.2 공분산과 상관성 분석

각 변수들의 특성을 파악한 다음 변수 간의 관계를 파악하는 것이 중요. 변수 간의 상관관계를 파악하는 대표적 개념으로 공분산과 상관계수가 있다. 상관 분석을 하기 위해서은 데이터가 등간이나 비율 척도이며, 두 변수가 선형적 관계라는 기본 가정을 두고 진행한다.

공분산

공분산과 상관 계수는 각 변수의 뱐동이 얼마나 닮았는지를 표현한다는 점에서 같지만, 계산 방식이 다르다. 공분산은 한 변수의 각각의 데이터가 퍼진 정도를 나타내는 분산 간의 관계를 의미한다. X 데이터셋에 X1과 X2 변수가 있을 때, X1 변수 각 값의 편차과 X2 변수 각 값의 편차를 곱한 값을 모두 더해준 후 전체 개수로 나눠준다. 결과값이 음수이면 음의 상관관계를 나타내는 것이고 양수이면 양의 상관관계를 나타내는 것이다. 0이라면 두 변수는 상관관계가 없는것이다.

상관계수

공분산은 변수 간의 상관관계를 수치화한 것이고 그렇기 때문에 한계가 존재한다. 각 변수 간의 다른 척도 기준이 그대로 반영되어 공분산 값이 지니는 크기가 상관성의 정도를 나타내지 못한다.
피어슨(Pearson) 상관계수를 많이 사용하는데, 피어슨 상관계수를 구하는 방식은 변수 X1과 X2가 함께 변하는 정도(공분산)를 X1 X2가 변하는 전체 정도로 나눠준 것.

그리고 아래 그림은 데이터 분포에 따른 상관계수 예시를 보여주는 그래프이다.
*
여기서 주의할 점은 산점도의 기울기와 상관계수는 관련이 없다는 것이다. 분산의 관계성이 같다면, 기울기가 크든 작든 상관계수는 같다.

10.3 시간 시각화

시점 요소가 있는 데이터는 시계열(Time Series) 형태로 표현할 수 있다. 다시 말해 시간의 흐름에 따른 데이터의 변화를 표현하는 것이다. 이를 통해 전체적인 흐름을 한눈에 확인할 수 있고, 데이터의 트렌드나 노이즈도 쉽게 찾아낼 수 있다.

연속형 시간 시각화

*선그래프 이용.
선그래프는 시간 간격의 밀도가 높을 때 사용.
데이터의 양이 너무 많거나 변동이 심하여 트렌드나 패턴을 확인하는 것이 어려울 경우 추세선을 삽입하여 데이터 흐흠을 안정된 선으로 표현.
*
추세선을 그리는 가장 일반적인 방법은 데이터의 연속적 그룹의 평균을 구하는 이동 평균(Moving average)를 사용하는 것.

분절형 시간 시각화

*막대그래프, 누적 막대그래프, 점 그래프 등으로 표현
시간의 밀도가 낮은 경우에 활용.
누적 막대그래프는 한 시점에 2개 이상의 세부항목이 존재할 때 사용한다.
값들의 상대적 차이를 나타내는 것에 유리.
막대그래프의 경우 색상을 표현하여 특정 시점에 대한 정보 추가 가능.

10.4 비교 시각화

그룹별 차이를 나타내기 위한 비교 시각화는 데이터가 간단하면 막대그래프만으로도 충분히 표현할 수 있지만 그룹별 요소가 많아지게 된다면 막대그래프로 표현하는 것이 효율적인 방법일까?
그룹과 비교 요소가 많을 깨 효과적으로 시각화를 할 수 있는 방법으로 히트맵 차트(Heatmap chart)를 소개한다.

히트맵 차트

히트맵의 각각의 셀은 색상이나 채도를 통해 데이터 값의 높고 낮음을 나타낸다. 차트의 각 행은 그룹에 해당하고, 옅은 요소에 해당된다. 이처럼, 각 그룹을 기준으로 요소들의 크기를 비교할 수 있고, 각 요소를 기준으로 그룹들의 크기를 비교할 수도 있다.

방사형 차트 Radar Chart

평행 좌표 그래프 Parallel coordinates


평행 좌표 그래프를 보다 효과적으로 표현하려면 변수별 값을 정규화하면 된다. 가장 낮은 값은 0%로, 가장 높은 값은 100%로 변환하여 차이를 더욱 부각시키는 것.

10.5 분포 시각화

분포 시각화는 매우 단순한 시각화 방법이지만, 데이터를 파악함에 있어 매우 중요하다.
분포 시각화는 연속형과 같은 양적 척도인지, 명목형과 같은 질적 척도인지에 따라 구분하여 그린다.
양적 척도의 겅우
막대 그리프나 선 그래프로 분포를 나타낼 수 있음
히스토그램을 통해 분포를 단순화하여 보다 알아보기 쉽게 만들 수도 있음
질적 척도의 경우
파이차트나 도넛차트를 사용.
*구성요소가 복잡한 질적 척도의 경우
트리맵 차트를 이용
와플차트 이용
*
와플차트는 와플처럼 일정한 네모 조각들로 분포를 표현하지만 트리맵차트처럼 위계구조를 표현하지는 못함.

10.6 관계 시각화

앞서 말했던 공분산과 상관분석을 통해 변수 간의 관계를 시각화할 수 있다.

산점도 scatter plot

두 개의 연속형 변수 간의 관계를 나타낼 수 있음.
단순해서 쉽게 이해하고 표현가능.
산점도를 그릴 때에는 극단치를 제거하고서 그리는 것이 좋은데 그 이유는 극단치로 인헤 주요 분포 구간이 압축되어 시각화의 효율이 떨어지기 때문.
데이터가 너무 많아서 점들이 서로 겹쳐서 정보를 제대로 확인하기 어려울 때 각각의 점에 투명도를 주어 점들의 밀도를 함께 표현할 수 있도록 할 수 있음.
두 개의 변수 간 관계만 표현할 수 있다는 단점이 있음.

버블차트

세 가지 요소의 상관관계를 표현할 수 있다.
산점도에 비해, 버블의 크기를 통해 한 가지 요소를 추가적으로 볼 수 있다.
버블차트는 원의 면적을 함께 봐야 하기 때문에 관측치가 너무 많게 되면 정보 전달의 효율이 떨어진다.
버블차트를 해석할 깨이는 원의 지름이 아닌 면적을 통해 크기를 판단하도록 주의해야 한다.(지름이 두 배가 크면 실제 크기는 네 배가 큰 것이기 때문)

10.7 공간 시각화

데이터가 지리적 위치와 관련되어 있으면 실제 지도 위에 데이터를 표현하는 것이 효과적이다. 공간 시각화는 위치 정보인 위도와 경도 데이터를 지도에 매핑하여 시각적으로 표현한다.
공간 시각화는 일반적인 시각화 방법처럼 단순 이미지로 표현되는 것이 아닌, 지도를 확대하거나 위치를 옮기는 등 인터랙티브한 활용이 가능.
거시적에서 미시적으로 진행되는 분석 방향과 같이 스토리라인을 잡고 시각화를 적용하는 것이 좋다.

도트맵 Dot Map

지리적 위치에 동일한 크기의 작은 점을 찍어서 해당 지역의 데이터 분포나 패턴을 표현하는 기법. 점 하나는 실제 하나를 뜻할 수도 있고 다른 단위의 크기를 나타낼 수도 있다.
도트맵은 시각적으로 데이터의 개요를 파악하는 데 유리하지만, 정확한 값을 전달하는 데에는 적합하지 않다.

버블맵 Bubble Map

버블차트를 지도에 그대로 옮겨둔 것. 데이터 값이 원의 크기로 표현되기 때문에 코로플레스맵보다 비율을 비교하는 것이 효과적이다. 그러나 버블맵안 지나치게 큰 버블이 다른 지역의 버블과 영역이 겹칠 수 있기 때문에 조절하는데 유의해야 한다.

코로플레스맵 Choropleth Map

단계 구분도.
데이터 값의 크기에 따라 생상의 음영을 달리하여 해당 지역에 대한 값을 시각화하는 기법. 경우에 따라서 여러 색상을 혼합할 수 있으며, 투명도, 명도, 채도 등 다양하게 표현 가능.
정확한 수치를 인지하고 비교하는 것이 어렵다. 작은 지역들에 지헤 큰 지역이 강조되는 인상을 줄 수 있으므로 유의하여 해석해야한다.

커넥션맵 Connection Map

링크맵.
지도에 찍힌 점들을 곡선 또는 직선으로 연결하여 지리적 관계를 표현한다. 뿐만 아니라 연속적 연결을 통해 지도에 경로를 표현할 수도 있다.
일반적으로는 연결선의 분포와 집중도를 통해 지리적 관계의 패턴을 파악하디 의해 사용.

플로우맵 Flow Map

커넥션맵과 유사하게 선을 표시하지만 시작점과 도착점이 함께 표현됨.

카토그램 Cartogram

각 지역의 면적을 데이터 값에 비례하도록 변형시켜 시각화.

10.8 박스 플롯

Box-and-Whisker Plot으로도 뷸림.
네모 상자 모양에 최댓값과 최솟값을 나타내는 선이 결합된 모양의 데이터 시각화 방법.
하나의 그림으로도 양적 척도 데이터의 분포 맟 편향성, 평균과 중앙값 등 다양한 수치를 보기 쉽게 정리해줌. (특히 두 변수의 값을 비교할 때 효과적)

박스 플롯의 다섯 가지 수치:
1. 최솟값 : 제1사분위에서 1.5|QR을 뺀 위치
2. 제1사분위(Q1) : 25%의 위치
3. 제2사분위(Q2) : 50%의 위치(중앙값median을 의미)
4. 제3사분위(Q3) : 75%의 위치
5. 최댓값 : 제3사분위에서 1.5|QR을 더한 위치
각 최솟값과 최댓값의 범위를 넘어가는 값은 이상치 outlier로서 작은 원으로 표시한다.

박스 플롯을 해석할 때는 항상 데이터 분포도를 함께 떠올리는 습관이 필요.

profile
Hang in there

0개의 댓글

관련 채용 정보