Wide Format vs Long Format

김주아·2024년 7월 4일
0


데이터를 구성하는 형식은 크게 Long format data와 wide format data로 구분할 수 있습니다.
각 유형 별 특징 및 장단점에 대해 살펴보겠습니다.

Wide Format Data

Wide Format Data는 각 주제 또는 관찰단위가 단일 행으로 표시되는 구조입니다.

학생 ID국어시험 점수수학시험 점수영어시험 점수
A859088
B788279
C919594

특징:

  • 넓은 형식 데이터에서는 각 행이 하나의 관측 단위를 나타내고, 각 열이 다른 변수를 나타냅니다.
  • 한 관측 단위에 대한 모든 정보가 하나의 행에 포함되어 있어 데이터의 구조가 직관적이고 이해하기 쉽습니다.

사용시 장점:

  • 넓은 형식 데이터는 변수 간의 비교가 주된 목적일 때 유용합니다.
  • 단일 변수 또는 몇 개의 변수를 이용한 간단한 시각화를 생성할 때, 또는 피벗 테이블과 같은 요약 통계를 제공할 때 넓은 형식이 유리합니다.

Long Format Data

학생 ID시험점수
A국어85
A수학90
A영어88
B국어78
B수학82
B영어79
C국어91
C수학95
C영어94

특징:

  • 긴 형식 데이터에서는 각 행이 하나의 관측치에 대한 하나의 변수를 나타냅니다.
  • 일반적으로 "키(key)"와 "값(value)"의 쌍으로 구성되며, 하나의 열은 "키"를 나타내고 다른 열은 해당 "키"의 "값"을 나타냅니다.

사용시 장점:

  • 긴 형식 데이터는 다변량 분석, 시계열 데이터 분석, 혹은 여러 변수 간의 관계를 분석할 때 유용합니다.
  • Tableau와 같은 BI 도구에서 긴 형식 데이터를 사용하면, 다양한 변수를 하나의 차트에 동적으로 표시하고, 필터링하며, 그룹화하기가 쉽습니다.


참고) Wide Format & Long Format In Tableau

Wide Format 데이터를 태블로에 입력하면 학생Id는 차원에, 점수관련 항목은 측정값으로 구분됩니다.
이를 활용해 하나의 테이블을 생성하기 위해서는 점수관련 항목을 모두 선택해주어야합니다.

반면 Long Format 데이터를 태블로에 입력하면 학생Id와 시험 항목은 차원에, 점수는 측정값으로 구분됩니다. 이를 활용해 하나의 테이블을 생성하기 위해서는 열에 시험 차원을, 행에 학생 Id차원을 올려놓은 후 점수 값을 표에 입력하면 됩니다.

다음은 해당 데이터들을 활용해 그래프를 생성해보겠습니다.
먼저 Wide Format 데이터의 경우 국어시험, 수학시험, 영어시험은 각각 다른 차원에 존재하는 데이터이므로 이를 하나로 합친 차트를 구현하는 것은 불가능합니다.

반면 Long Format 데이터의 경우, 시험이라는 하나의 차원을 기준으로 점수라는 측정값이 적재되어 있기때문에 해당 데이터를 이용해서는 하나의 차트 내에서 3가지 항목을 구분하여 구현할 수 있습니다.

→ 따라서 Tableau를 활용하여 시각화를 구현할 때에는 Long Format형식의 데이터를 사용하는 것이 더욱더 다양한 시각화가 가능합니다.

profile
정확한 분석과 설득력 있는 시각화를 통해 데이터의 가치를 극대화합니다.

0개의 댓글