[제로베이스] 데이터 사이언스 15기 - (06-07 EDA 스터디노트)

윤태호·2023년 6월 7일
0
post-thumbnail

오늘 수강한 강의 - EDA 유가 분석 (15 ~ 18)

15 ~ 16 주유소 가격 정보 정리하기

데이터 읽어 오기

  • 파일 목록을 한 번에 가져올 수 있다
  • glob : 파일의 목록을 읽어오고 정리해주는 역할


  • 형식이 동일하고 연달아 붙이기만 하면 될 때는 concat 명령을 사용


  • 컬럼 이름을 바꾸어놓기
  • 평균적으로 주유 가격이 비싼 구를 확인하고 위해 주소에서 구 정보를 가져오자
  • 서울특별시가 구 사이에 들어가서 27이 되었다
  • 오류 고치기
  • 오류 고치기 2
  • float 형으로 변경하려 했지만 에러 발생
  • - 기호를 float로 바꿀수 없음
  • 가격 정보가 없는 주유소 때문에 에러 발생
  • 가격 정보가 있는 주유소만 적용
  • 가격 다시 float를 변경

  • index 번호 매기기
  • 필요없는 부분 삭제

17 ~ 18 주유가격 시각화

데이터 읽어 오기

  • matplotlib 한글 대응
  • 셀프 주유소가 대체로 셀프 주유소가 아닌 곳보다 싸다
  • Median 중심으로 아래 위 상자가 각각 데이터의 25%씩 총 50%를 가진다
  • 상자 전체 길이를 IQR(Inter Quatile Range)라고 한다
  • IQR의 1.5배 이상 벗어나면 점으로 별도 표기를 한다

  • 셀프가 아닌 주유소가 outlier가 더 많다
  • 각 메이커 별 셀프 주유 여부를 포함해서 가격 분포를 보자
  • folium
  • sort_values

  • 구별 주유표
  • 지도 시각화

재미있었던 부분

역시나 시각화 해서 boxplot이나 folium으로 나타낸 후에 분석하는 내용이 가장 흥미롭고 재미있는 부분이었다
시각화 된 자료만 보고도 여러가지 정보를 얻을 수 있다는 것이 매력적인 것 같다

어려웠던 부분

오류가 날때 고치는 것은 항상 어렵다
구글링이 항상 도와주지만 가끔은 해결 못할때도 있다

느낀점 및 내일 학습 계획

드디어 와 신기하다 에서 이런 정보를 얻을 수 있구나로 바뀌는 시점인 것 같다
유가 분석 파트 전에는 결과가 나오면 신기했고 따라만 가다보니 잘 모르는 부분도 있었다
유가 분석 파트에 오면서 조금은 이해가 갈 것 같기도 하다
재미를 붙인거 같아서 만족스럽다
내일은 Naver API 파트이다

profile
데이터 부트캠프 참여중

0개의 댓글