EDA(12)_유가 분석

Jio.B·2023년 7월 6일
0

1. selenium 연결하기

2. 데이터 확보를 위한 사전작업

[질문] 실제로 셀프 주유소가 일반 주유소보다 저렴한가?


[사전작업 예시]


3. 데이터 소스 페이지 접근(selenium)

  • 발생 가능한 문제
      1. 해당 URL로 한 번에 접근 불가
      1. 원하는 페이지가 아닌, 메인페이지로 접속되며 팝업창이 같이 나옴
  • 해결방법
      1. 팝업창 화면 전환 후 닫아주기
      1. 접근 페이지 다시 요청

<데이터 취합 절차 요약>


4. 필요한 내용이 담긴 태그 확인

  • 크롬 '개발자도구' 활용하여 html 태그 확인

변경된 코드 참조 (2023. 07. 현재 기준)


5. 필요한 텍스트 불러오기, 확인

  • 수집 코드 테스트

  • 반복문으로 수집하기 : 시/도 데이터 & 시/군/구 데이터

5-1. 시/도 데이터

  • 비어있는 첫번째 인덱스는 버리고 인덱스 1부터 데이터 불러오기

5-2. 시/군/구 데이터

[참고]

  • 셀레니움은 작동하는 데 시간이 다소 걸림
  • 그렇기 때문에 import time 을 이용해서 단계별로 코드가 잠시 멈추었다가
    다시 다음 단계 코드를 작동하는 방식으로 명령어를 입력해야 함

6. 여러 엑셀 데이터 한번에 불러오기(glob)

7. 데이터 파일 합치기(concat)

합치려는 엑셀파일의 형식이 모두 동일하고, 연달아 붙이기만 하면 될때는 concat

7-1. 필요한 컬럼만 뽑아내기

7-2. '주소' 컬럼에서 구 이름만 추출

7-3. '가격' 데이터 형변환

7-4. 인덱스 재정렬

8. 주유 가격 정보 시각화(boxplot)

  1. boxplot (with pandas)

  1. boxplot (with seaborn)

9. 지도 시각화(folium)

9-1. 데이터 추출

9-2. 지도에 데이터 반영

0개의 댓글

관련 채용 정보