스터디 노트🖊️_Day 27(EDA)

정설령·2023년 4월 10일

EDA

목록 보기
10/11
post-thumbnail

✔️ EDA 학습과제 1

1. 주제

  • 이디야는 스타벅스 매장 근처에 위치 시키나?

2. 분석 방법

1) 서울시 스타벅스 매장 위치 크롤링
2) 서울시 이디야 매장 위치 크롤링
3) 두 매장의 위치 분석
① 구 별 각 매장 수 합계를 비교하여 시각화
② 도로명 주소를 이용하여 위도, 경도를 반환받고 같은 구 내에 있는 두 매장의 위치 차이 분석
- 스타벅스 매장에서 2km 보다 더멀리 떨어진 이디야 매장은 분석에서 제외
- 각 구의 스타벅스로부터 직선거리 기준 가장 가까운 이디야 매장을 찾고, 100m/300m/500m/700m 이내에 포함되는 개수 비율을 구하여 비교
- 두 브랜드 지점별 거리가 2km 이내 매장을 기준으로 100m/300m/500m/700m 이내에 있는 이디야 매장 비율을 구하고 관계 분석
③ 구 별 매장을 지도로 시각화하여 분석

3. 실행

1) 서울시 스타벅스 매장 위치 크롤링

  • 스타벅스 공식 홈페이지
    - https://www.starbucks.co.kr/store/store_map.do
    ① selenium을 이용해 매장찾기-지역검색-서울-전체 클릭
    ② beautifulsoup을 이용해 601건 주소 크롤링
    ③ 크롤링한 데이터를 이용가능한 주소 형태로 가공
    - 도로명주소는 시/도 | 시/군/구 | 도로명 | 건물번호 형식에 따른다는 점에서 띄어쓰기로 split()한 구간 갯수대로 반환받아 데이터프레임으로 저장

2) 서울시 이디야 매장 위치 크롤링

  • 이디야 공식 홈페이지
    - https://www.ediya.com/contents/find_store.html
    ① selenium을 이용해 주소탭 클릭 후 검색할 주소 값 입력 및 돋보기 클릭

    → '서울' 이라는 검색 키워드는 범위가 넓어 검색이 불가하므로 각 구별로 검색
    → 그 중 '강서구'와 '중구' 또한 위와 같은 이유로 검색이 불가해 '서울 강서', '서울 중구' 키워드로 변경하여 검색

    ② beautifulsoup을 이용해 주소 크롤링

    ③ 크롤링한 데이터 중 하위 도로명 주소까지 크롤링 되지 않는 값 발견

    ④ 하위 도로명 주소까지 크롤링 되지 않은 지점들을 매장명을 이용하여 크롤링 재수행

    ⑤ 크롤링한 데이터를 이용가능한 주소 형태로 가공 및 데이터프레임 저장

3) 매장 위치 분석

  1. 구 별 각 매장 수 합계를 비교하여 시각화

    → 서울시의 각 구 마다 스타벅스와 이디야 매장수의 합계를 그래프로 시각화 한 결과 마포구와, 송파구, 영등포구를 제외한 나머지 구들은 구 별 매장 분포 차이가 많이 났지만, 위 그래프로는 두 브랜드의 위치적 관계를 파악하기에 어려움이 있다.

  2. 도로명 주소를 이용하여 위도, 경도를 반환받고, 이를 이용해 직선거리를 계산 후 같은 구 내에 있는 두 매장의 위치 차이 분석

    • 스타벅스 매장에서 2km 보다 더멀리 떨어진 이디야 매장은 분석에서 제외

    • pivot_table()을 이용해 각 구의 스타벅스로부터 직선거리 기준 가장 가까운 이디야 매장을 찾고, 100m/300m/500m/700m 이내에 포함되는 개수 비율을 구하여 비교


      • 각 구에 위치한 지점별 거리를 구하고 그 중 최소거리인 값만 추출하여 구간별로 나눠보았다. 마지막 구간은 서울시 전체 이디야 매장 중 스타벅스와 2km 이내에 분포되어있는 총 매장 수의 비율을 나타내었다. 85%라는 높은 분포율을 보이고 있다.
    • 두 브랜드 지점별 거리가 2km 이내 매장을 기준으로 100m/300m/500m/700m 이내에 있는 이디야 매장 비율을 구하고 관계 분석

      • 전체 구간을 2km 이내만 고려했을 때, 서울시 각 구의 스타벅스 지점별 이디야 매장 간의 거리 중 최소직선거리인 매장을 구하고, 그 구간이 어디에 포함되는지 비율로 나타내었다. 그 결과 100m 이내 구간에 포함되는 이디야 매장은 전체 2km 이내 매장에서 23%가 매우 근접해 있다는것을 알 수 있고, 300m 이내 구간은 49%로 가장 많이 분포되어있다. 두 구간을 포함하면 약 72%로 이디야 매장은 스타벅스 매장과 가까운 위치에 있는 매장이 많다는 것을 파악할 수 있다.
  3. 구 별 매장을 지도로 시각화하여 분석

    • 좌표값을 이용해 모든 서울시의 스타벅스와 이디야 매장을 나타내보았다. 외곽 지역은 스타벅스 매장에 비해 이디야 매장이 많이 분포해있고, 특정 지역에 단독으로 이디야 매장이 위치해 있는 곳을 제외하면 스타벅스 근처에 이디야 매장이 근접해 있는 것을 더러 볼 수 있다.

최종 결론

  • 지도 시각화를 통해 근거를 들기에는 측정 방법이 주관적일 수 있어 신뢰도는 떨어지지만, 서울시 이디야 매장(약 700점)이 스타벅스 매장(약 600점) 보다 많다는 점을 감안하고 지도 시각화를 접근했을 때, 스타벅스 근처에 이디야 매장이 근접해 있는 곳이 많이 보였고, 최소거리로 구한 매장 수의 비율을 통해 수치적 결과를 비교해 보면 이디야 매장이 스타벅스 매장과 근접해있다고 판단한다. 이는 곧 지리적 근접 빈도를 기준으로 스타벅스 근처에 이디야가 위치해 있는 것은 전략이라고 볼 수 있다.
  • 하지만 이 두가지 접근 방식은 스타벅스 매장을 기준으로 근접한 이디야 매장 위치의 빈도를 파악한 방법이므로, 전체 단위면적과 유동인구에 따른 매장 위치 선정이나 위치 선정 시기와 같은 다른 부가적 요소를 고려하여 접근해 보면 또 다른 결론이 나올 것 같다.

"이 글은 제로베이스 데이터 취업 스쿨의 강의 자료 일부를 발췌하여 작성되었습니다."

0개의 댓글