[데이터 엔지니어링 데브코스 2기] TIL-9주차-파트02 [프로젝트]데이터 웨어하우스를 이용한 대시보드 구성(1)

이재호·2023년 12월 5일
0

1. 주제 선정

  • https://www.kamis.or.kr/customer/main/main.do 의 농산물 일일 가격 데이터를 통해서 (전일 비교 등) 가격 등락률을 보여주는 대시보드 구성.

  • 전체적인 구상: raw data -> AWS S3(스토리지) -> Snowflake(데이터 웨어하우스) -> Superset(대시보드)

2. 역할 분담

총 5인의 팀원으로 구성되어 있으며, 역할 분배는 다음과 같습니다.

  • API 이용한 데이터 수집
  • S3 설정
  • Snowflake 설정
  • Snowflake Summary 생성
  • Superset 대시보드 생성

저는 API를 이용한 데이터 수집 파트를 맡았습니다.

3. 진척 사항

  • API를 통해 xml 데이터를 받아서 이를 csv 파일로 저장 완료.

4. 실패 사항

  • raw data를 csv 파일로 저장할 때, encoding(copec949) 에러가 발생하기에 인코딩 방식을 utf-16으로 지정하여 저장함.
  • 그리고 api url의 parameter 값을 저장하는 엑셀 파일이 있는데, 이를 csv로 변환하면 인코딩 에러가 발생하여 pandas와 openpyxl를 활용함.
profile
천천히, 그리고 꾸준히.

0개의 댓글