[TIL] [프로젝트] 데이터 웨어하우스를 이용한 대시보드 구성 (1)

이원진·2023년 5월 29일
0

데브코스

목록 보기
36/54
post-thumbnail
post-custom-banner

학습내용


  1. 주제 선정

  2. 회의 내용

  3. To-do

1. 주제 선정


  1. 민원 관련 공공데이터(CSV)를 활용해 연령 별, 업종 별 민원 분석

    • 프로젝트의 목표인 시각화를 달성하려면, 숫자 데이터를 활용하는 것이 나아보임

  2. Stackoverflow의 데이터를 분석해서 기술 스택 트렌드와 질문글 분석

    • 비정형, 자연어 데이터로 이루어져있기 때문에 시각화가 어려울 수 있음

  3. 시군구별 교통사고 공공데이터(CSV)를 활용해 교통사고가 많이 발생하는 지역 분석

    • 이전 년도(2019, 2020) 데이터를 같이 분석해 증감율 계산

    • 이전 년도의 데이터가 지속적이지 않아 유의미한 분석이 어려울 수 있음

  4. 네이버 증권 ETF 데이터를 활용한 ETF 관련 정보 분석

    • 파일 데이터를 제공하지 않아 크롤링을 해야한다는 단점이 있음

  5. DefiLIama의 DeFi 데이터(API)를 활용해 코인 가격 및 총자본 분석

    • 시각화 목적과 결과를 명확하게 도출하기 어려움

  6. 제주도 관광객 공공데이터(CSV)를 활용해 관광객 추이 분석

    • GROUP BY로 행태 별, 목적 별, 연도 별로 묶어서 여러 가지 방법으로 활용

  7. 축구선수 별 기록 데이터를 활용한 분석

    • 프로젝트에 적합한 형태의 데이터를 찾지 못함

위의 주제들 중, 이번 프로젝트의 목표인 시각화를 달성하기 좋은 형태의 데이터셋(numeric)을 확보할 수 있으며, 여러 가지 방법으로 활용해 유의미한 분석 결과를 제공할 수 있는 제주도 관광객 공공데이터를 활용해 관광객 추이 분석 을 주제로 선정


2. 회의 내용


  • 처음에는 적은 양의 데이터로 시각화를 먼저 진행하고, 조금씩 확장해가며 시간적 여유가 되면 AI 모델을 도입 고려

  • 배운 내용을 복습하는 차원에서 AWS Redshift를 사용할 것인데, 크레딧을 제공하지 않아 과금 문제가 잘생할 수 있으므로, 데이터 양이 너무 많은 것은 지양

    • 데이터 양이 많다고 해도 빅데이터 처리 능력, 혹은 경험을 쌓기에는 어려움이 있을 것 같음

  • 제주도 관광객과 일본 관광객 인원 수의 상관관계를 보여줄 수 있으면 좋을 것 같음

    • 일본 출국 인원 관련 데이터를 찾지 못해 보류

  • AWS 계정은 어떤 팀원의 것을 사용하고, 용량과 비용은 어떻게 관리할 지

    • 프리티어 있는 한 명이 Redshift 클러스터, S3 운영

    • 이번 프로젝트 배포를 위해 굳이 AWS를 사용할 필요 없이 로컬로 서버를 돌리고, 시각화에 집중해도 괜찮을 것 같다는 의견이 제시됨


3. To-do


  • 제주도 관광객 관련 CSV 파일 Redshift에 적재

    • S3 활용해 벌크 업데이트

  • 여행 행태, 목적, 연도 별로 JOIN해 분석 테이블 생성

  • 분석 테이블 시각화

    • 강의에서는 주로 Superset을 배웠지만, 어떤 기술을 사용할지는 더 논의해볼 것

post-custom-banner

0개의 댓글