[제로베이스] CH4. EDA - 셀프주유소가 정말 저렴한가?

정해성·2023년 7월 10일
0

제로베이스

목록 보기
34/36
post-thumbnail

🚩 프로젝트 개요

서울시 모든 구의 셀프주유소가 다른주유소보다 가격이 저렴한지 알아볼 것이다.

한국주유소정보사이트 : https://www.opinet.co.kr/user/main/mainView.do

  • 싼 주유소 찾기에서 지역별 클릭

  • 목표 데이터 : 브랜드, 가격, 셀프주유여부, 위치

🚩 프로젝트 목표

  • 셀레니움 활용 목표 데이터 수집 자동화
  • seaborn으로 데이터 시각화
  • folium으로 지도 시각화
  • 실제로 저렴한지 파악

🔎 selenium으로 홈페이지 켜기

🔎 크롬 개발자 도구 태그 정보

  • 필요한 태그
<select id="SIDO_MNO"> 
	<option value="서울특별시">서울</option>
    .
    .
<select id="SIGUNGU_MNO">
	<option value="가평군">가평군</option>
    .
    .
<select id="DONG_MNO">
	<option value="고잔1동">고잔1동</option>
    .
    .

🔎 시 선택하기

  • 위에서 찾은 태그 정보로 시에 접근한다.

  • 맨 위에 빈 값이 있어서 빼준다.

  • 검색어를 서울시로 바꾸기

🔎 구 선택하기

  • 위의 방식과 동일하게 진행한다.

🔎 엑셀로 저장 클릭하기

  • 조회하기 및에 보면 엑셀로 저장 버튼이 있다.
  • 엑셀로 저장 기능은 copy selector로 진행해보자.

  • 완료되면 총 25개의 xlxs 데이터가 다운로드 폴더에 있다.

  • 저장 됨을 확인하고 이제 드라이버는 종료시켜준다. 종료를 안시키면 메모리 낭비가 될 수 있으니 꼭 습관을 들이자.


🔎 엑셀 데이터 정리

  • 엑셀데이터 이름이 거의 비슷하니 glob 기능을 사용하자.

  • 엑셀 데이터 이름 리스트를 활용해 데이터를 새로운 리스트에 담자.

  • tmp_raw라는 변수에는 같은 형식의 데이터가 25개가 있다.
  • 형식이 같을때 하나의 프레임으로 합쳐주는 pd.concat()을 사용해서 합치자.

🔎 데이터프레임 튜닝

  • 우리가 볼 데이터는 상호,주소,가격,셀프,상표 니까 이 데이터들만 컬럼으로 불러오자.

  • 주소컬럼에서 구 이름을 추출해 새로운 컬럼으로 만들자.

  • 가격 컬럼을 보니 '-'데이터가 있다.
  • 이번 프로젝트에서는 제외하고 진행하자.

  • 가격 값을 float형으로 바꾸자.

  • info()로 보니 인덱스가 이상하다.
  • 재정렬해주자.

  • 인덱스 컬럼을 제거하자.

  • 데이터를 저장하자.

🔎 시각화 가격 비교

  • 기본셋팅

  • boxplot

  • 셀프주유소 가격이 대체로 싼 것을 확인할 수 있다.

🔎 지도 시각화

  • 먼저 구 별로 가격값을 나타내는 데이터프레임으로 만들자.

  • 시각화

profile
코린이 공부중

0개의 댓글