QuickSight 데이터셋dataset 소개

2innnnn0·2022년 5월 1일
2

AWS QuickSight

목록 보기
3/10
post-thumbnail

포스팅 리스트

  • 서울(ap-northeast-2) 리전으로 한다면 아래 링크로 접속 가능하다. https://ap-northeast-2.quicksight.aws.amazon.com/sn/start/dashboards
  • 우측 상단 사용자메뉴에서 언어를 변경할 수 있다. 모든 설명은 "한국어"를 기준으로 진행했다.
  • 퀵사이트 계정은 AWS계정에서 별도로 받아야 한다.

기능 구성

  • 퀵사이트 계정을 발급하고 나면 다음과 같은 UI를 가짐.
  • 대시보드(Dashboard) : "분석"을 배포해서 사용자들이 확인할 수 있는 결과리포트.
  • 분석(Analyses) : SPICE로 저장된 데이터셋을 활용하여 대시보드를 제작 및 수정할 수 있는 기능.
  • 데이터셋(DataSet) : SQL 등으로 불러온 데이터를 SPICE로 저장하는 저장소.

전체 화면

$. 데이터셋

  • 새로운 데이터셋을 신규생성 한다면 아래와 같은 화면에서 생성가능하다. 우측 상단에는 현재 SPICE 용량을 알 수 있다.

  • 필자는 Athena 데이터셋 기준으로 진행했다.

  • Athena 커넥터로 연결 후, 사용자 지정 SQLCustom SQL Source로 쿼리를 입력하면 된다.

  • 생성을 완료한다면 다음 리스트에서 SPICE라는 주황색 태그가 붙어 있다는 것을 확인할 수 있다.

  • 그 외, "소유자", "최근 수정 일자" 그리고 옵션으로는 폴더에 넣을 수 있거나, 다른 메이커에게 권한을 부여할 수 있는 기능이 있다.

  • 분석 생성을 통해 이후 대시보드 작업을 진행하면 된다.

  • 상세 데이터셋을 눌러보면 해당 데이터셋에 대한 상세한 정보들을 추가로 확인 할 수 있다. 여기서 "새로고침예약"을 통해 데이터셋을 주기적으로 리프레시 할 수 있다.

지원하는 데이터종류

  • 기본적으로 타임존이 있는 날짜timestamp, 문자열string, 수치형numeric(정수, 소숫점) 데이터형을 지원한다.
  • 위경도나 국가, 지역같은 지리geo 데이터들은 보통 수치형, 문자열로 되어있는 데이터를 컬럼명을 인식해서 표기해주기도 하지만 별도로 지리데이터로 변환 가능하다.
  • 예외적으로 ARRAY 타입은 지원하지 않는다. 문자열로 변환해서 사용 해야한다.

새고고침예약

  • 전체새로고침증분새로고침이 있다. 전체는 데이터셋을 기존 데이터에 상관없이 완전히 다시 불러온다. 증분은 기존 데이터셋과 비교해서 업데이트된 데이터만 새로고침한다.

  • 시간대는 퀵사이트 리전에 따라 기본 설정이 다르다(필자는 ap-northeast-2). 'Asai/Tokyo'로 설정되어있는데, Asia/Seoul로도 바꿀수는 있지만 시간대는 UTC 09;00로 동일하기 때문에 굳이 안바꿔도 괜찮다.

  • 주기를 선택할 수 있는데 Hourly(최소), Daily, Weekly, Monthly(최대)가 있다.

  • 시작 시간은 현재시간보다 미래시점으로 선택하면 된다.


데이터셋 편집

  • 데이터셋 편집을 누르면 아래와 같은 화면이 나옴.
  • 쿼리 업데이트시 반드시 적용 을 누르고 저장 및 게시로 진행해야 올바르게 업데이트한 SQL이 적용된다.
  • 혹시나 SPICE로 저장되지 않을 수 있는데, 그럴때는 데이터셋 편집에서 왼쪽 하단 "쿼리 모드"를 SPICE로 변경 후 저장하면 된다.

자 이제, 분석 메뉴로 가보자.


데이터셋 관리 TIP (현업SIDE)

네이밍

  • 가급적 SQL명데이터셋명은 일치시켜주는 것이 좋다.
  • 퀵사이트는 모든 명칭의 중복을 허용한다. 그래서 명시적으로 어떤 데이터셋인지 알 수 있으면 좋다.
  • 현재 퀵사이트 데이터셋은 본인이 만든 것이 아니면 다른 작성자를 한눈에 확인하는 것이 어렵다. 필자의 회사의 경우 네이밍 규칙을 다음과 같이 하고 있다.
  • 아래 네이밍 규칙의 장점은 작성자 혹은 대시보드명를 검색할때 용이하다.

    {작성자이름}_{대시보드명}_{데이터셋명}
    e.g.
    nathan_tutorial_TIMESERIES

폴더 구성

  • 경험적으로 하나의 데이터셋을 여러 대시보드에서 동시에 사용하지는 않았었다. 즉, 데이터셋과 대시보드의 관계는 일대일로 하나의 데이터셋은 하나의 대시보드에만 주로 적용한다(물론 예외는 있다.)
  • 앞서 네이밍에서 대시보드명이 서로 같은 데이터셋들은 폴더를 하나 만들어서 데이터셋을 모아두면 관리하는 차원에서 도움이 된다. (e.g. tutorial 폴더를 만들고 tutorial이 들어간 데이터셋을 모두 넣어두기.)
  • 추가로 처음부터 데이터셋을 만들때 해당 폴더안에서 만들면 별도로 이동해야할 수고를 덜 수 있다.

데이터셋 공유

  • 아쉽게도 작성일을 기준으로 데이터셋을 일괄적으로 수정하거나 이동시키는 것이 가능하지 않다.(듣기론 조만간 추가한다고..)

  • 해서, 데이터셋을 개별적으로 공유가 가능하지만 공유해야할 데이터셋이 많다면 공유하는 것이 여간 번거롭다.

  • 앞서 폴더로 데이터셋을 모아두면, 폴더단위로 데이터셋을 공유하는것이 가능하다.

  • 현업사이드 comments..

    여기서 퀵사이트만의 재미있는 특징이 있는데, 폴더를 공유한다는 게 폴더 자체를 공유받는게 아닌 폴더에 있는 데이터셋을 공유받는 것이다. 그래서 나에게는 폴더 통째로 보여지지 않고, 데이터셋 리스트만 확인이 가능하다. 다시 말하면, 해당 데이터셋을 모을 폴더를 별도로 다시 만들어야 한다. 요거는 데이터셋이 개념적으로 폴더에 들어간 것이지 퀵사이트에서 폴더의 개념은 공유 관점으로만 작동하기 때문이다.
    해당 설명이 곧바로 이해가 되지 않을 것인데, 나중에 직접 다뤄보면 어떤 이야기인지 이해가 될 것 이다.

profile
성장하고 싶은 데이터분석가.

0개의 댓글