Day35

김재현·2023년 7월 10일

JUPYTER/DL/ML

목록 보기
15/73

연습문제 풀이

  • 상자그래프 생성시 발생하는 극단치를 확인하고 파아, 분석할 수 있어야 한다
  • query문을 사용해 columns 데이터를 분리해 비교할 수 있다
  • y축 범위를 통일한 상태에서 비교를 해야 정확한 분석이 가능하다
    연습문제 2,3(y_lim)
  • boxplot에서 보여지는 다양한 정보를 파악하고 분석할 수 있도록 노력
    중앙값, 증가율, 하락율, 최대, 최소
  • 정확한 데이터를 얻기 위해서는 category로 바꾸는 경우가 필요
    전공을 category로 바꾸지 않으면 합산으로 계산에 데이터 오류가 발생
    문제5
  • 히스토그램에서 bins를 사용한 범위 생성의 중요성을 인식하고 사용

진도

01-데이터정제_개요.ipynb

이상값(결측값) 처리는 제거가 필수는 아니기 때문에 분석의 목적, 종료에 따라 분석가의 적절한 판단(주관)이 필요


02-결측치_정제.ipynb

  • 결측치 제거
    결측치 제거의 경우 원본은 건들이지 않도록 한다
    실수로 잘못 정제하면 데이터 추출부터 다시 해야함

  • 결측치 대체
    대체되는 결측치는 실수 형태로 변경
    데이터 타입을 확인해야하는 이유
    numpy 내부 함수를 사용해 결측치의 값을 처리할 수 있다(평균, 중앙값, 최빈값)


03-이상치_정제.ipynb

  • 이상치 정제는 결측치 정제를 우선 수행한 후 진행
  • 같은 작업이 2번 이상 반복되면 함수로 정의
  • 같은 함수를 여러 번 사용할 경우 모듈로 정의
    모듈이 바뀌면 jupyter를 재식작 후 실행
    동일 폴더에 없다면 import os를 사용해 다른 폴더에 있는 python 모듈을 가져온다
  • 상위 폴더에 존재하는 파일을 가져오기 위해 os의
  • 상한값, 하한값 내부에 존재하지 않는 값을 찾아낸 후 NaN 값으로 변경
  • 변경된 결측치 처리
  • (연속성 자료)리스트 복사 : 얕은 복사 - 원본값도 바뀌기 때문에 return이 필요 없음
    원본을 건들이지 않으려면 copy를 한 후 실행해야함(깊은 복사를 사용해 원본 값은 유지하며 실행) - 이때는 return을 실행

지도시각화

folium을 사용한 지도 시각화

  • URL에서 위도와 경도를 추출한다
  • 기본적인 마커를 사용하거나 별도의 이미지를 사용해 마커를 생성할 수 있다
  • HTML을 사용해 지도에 나오는 정보 테마를 변경하거나 꾸밀 수 있다

0개의 댓글