2020. 12. 30 수요일
우선 Airbnb의 데이터를 뜯어보았다.
- 개인적인 희망사항으로는 유저의 서비스 이용에 대한 타임스탬프가 존재한다면 좋을 것 같았다.
- 이번 테이블에 존재하는 Column은 Airbnb의 호스트 id, 숙소 이름, 가격, 호스트 시작일, 평점, 지역 등 서비스 구매자 보다는 판매자 중점의 테이블이었다.
- 유저 데이터는 아니지만 호스트 시작일과 평점 데이터가 포함되어 있어 저번 프로젝트와는 다른 방향으로 대시보드 제작이 가능할 것 같다.
지표를 설정하였다.
- 우선 스코어카드에 포함할 지표를 선정하였다.
- 숙소 수
- 호스트 수
- 평균 요금
- 평균 평점
- 최고 평점 지역
- 최다 숙소 지역
- 또한 지역에 대한 데이터가 존재하여 평소에 써보고 싶었던 지도 차트를 사용할 수 있을 것이다.
- 지역별 숙소 분포(지도 차트)
- 지도차트의 이해를 도울 수 있도록 지역별 숙소 비율을 시각화한 원형 차트를 추가할 것이다.
- 각 호스트의 호스트 시작일에 대한 타임스탬프가 존재하기에 이 데이터를 활용하여 추이 그래프를 제작할 수 있을 것이다.
- 기준별 숙소 수와 평균 요금에 대한 차트를 추가할 것이다.
- 지역별 숙소 수, 평균 요금
- 건물 유형별 숙소 수, 평균 요금
- 방 유형별 숙소 수, 평균 요금
- 평점 데이터가 존재하기에 평점에 대한 차트를 추가할 것이다.
- 지역별 평균 평점
- 건물 유형별 평균 평점
- 방 유형별 평균 평점
해당 지표를 구할 Raw Data를 추출하였다.
- 우선은 따로 가공 없이 순수한 Raw Data만 추출하였다.
CREATE OR REPLACE TABLE `vaulted-cogency-295111.practice.airbnb_ny_dashboard` AS
SELECT DISTINCT
Host_Id,
Host_Since,
Name,
Neighbourhood_,
Property_Type,
Review_Scores_Rating__bin_,
Room_Type,
Beds,
Number_of_Records,
Number_Of_Reviews,
Price,
Review_Scores_Rating,
Zipcode
FROM
`untechbox-sql.airbnb.airbnb_ny`