🚩 프로젝트 개요
서울시 모든 구의 셀프주유소가 다른주유소보다 가격이 저렴한지 알아볼 것이다.
한국주유소정보사이트 : https://www.opinet.co.kr/user/main/mainView.do
- 목표 데이터 : 브랜드, 가격, 셀프주유여부, 위치
🚩 프로젝트 목표
- 셀레니움 활용 목표 데이터 수집 자동화
- seaborn으로 데이터 시각화
- folium으로 지도 시각화
- 실제로 저렴한지 파악
🔎 selenium으로 홈페이지 켜기
🔎 크롬 개발자 도구 태그 정보
<select id="SIDO_MNO">
<option value="서울특별시">서울</option>
.
.
<select id="SIGUNGU_MNO">
<option value="가평군">가평군</option>
.
.
<select id="DONG_MNO">
<option value="고잔1동">고잔1동</option>
.
.
🔎 시 선택하기
🔎 구 선택하기
🔎 엑셀로 저장 클릭하기
- 조회하기 및에 보면 엑셀로 저장 버튼이 있다.
- 엑셀로 저장 기능은 copy selector로 진행해보자.
- 완료되면 총 25개의 xlxs 데이터가 다운로드 폴더에 있다.
- 저장 됨을 확인하고 이제 드라이버는 종료시켜준다. 종료를 안시키면 메모리 낭비가 될 수 있으니 꼭 습관을 들이자.
🔎 엑셀 데이터 정리
- 엑셀데이터 이름이 거의 비슷하니 glob 기능을 사용하자.
- 엑셀 데이터 이름 리스트를 활용해 데이터를 새로운 리스트에 담자.
- tmp_raw라는 변수에는 같은 형식의 데이터가 25개가 있다.
- 형식이 같을때 하나의 프레임으로 합쳐주는 pd.concat()을 사용해서 합치자.
🔎 데이터프레임 튜닝
- 우리가 볼 데이터는 상호,주소,가격,셀프,상표 니까 이 데이터들만 컬럼으로 불러오자.
- 주소컬럼에서 구 이름을 추출해 새로운 컬럼으로 만들자.
- 가격 컬럼을 보니 '-'데이터가 있다.
- 이번 프로젝트에서는 제외하고 진행하자.
- info()로 보니 인덱스가 이상하다.
- 재정렬해주자.
🔎 시각화 가격 비교
- 셀프주유소 가격이 대체로 싼 것을 확인할 수 있다.
🔎 지도 시각화
- 먼저 구 별로 가격값을 나타내는 데이터프레임으로 만들자.