[빅데이터] 크로스 집계의 기본

Woong·2022년 4월 15일
0

빅데이터

목록 보기
1/5
  • 크로스 테이블 (cross table)
    • 행, 열이 교차하는 부분에 데이터가 들어가는 테이블
    • Excel 등 스프레드시트에서 많이 사용됨
    • 데이터베이스에서 다루기 다소 어려움
      • 열 추가가 쉽지 않음
  • 트랜잭션 테이블 (transaction table)
    • 행 방향으로만 데이터가 증가하는 테이블
    • 일반적인 RDB에서 볼 수 있는 테이블
  • 크로스 집계 (cross tabulation)
    • 트랜잭션 테이블 -> 크로스 테이블로 변환하는 과정
    • 스프레드시트의 피벗 테이블 (pivot table) 기능 등

SQL에 의한 테이블 집계

  • 피벗 테이블, pandas 등으로 크로스 집계가 가능하나, 대용량 데이터에서는 느린 문제
  • 전체 데이터를 크로스 집계하는 대신, SQL을 사용
    • SQL 통해 먼저 집계를 수행하여 데이터량이 크게 줄어든 트랜잭션 테이블 생성
    • 트랜잭션 테이블을 크로스 집계하여 크로스 테이블 획득
    • 크로스 테이블을 시각화 도구로 시각화

0개의 댓글