연습문제 풀이
- 상자그래프 생성시 발생하는 극단치를 확인하고 파아, 분석할 수 있어야 한다
- query문을 사용해 columns 데이터를 분리해 비교할 수 있다
- y축 범위를 통일한 상태에서 비교를 해야 정확한 분석이 가능하다
연습문제 2,3(y_lim)
- boxplot에서 보여지는 다양한 정보를 파악하고 분석할 수 있도록 노력
중앙값, 증가율, 하락율, 최대, 최소
- 정확한 데이터를 얻기 위해서는 category로 바꾸는 경우가 필요
전공을 category로 바꾸지 않으면 합산으로 계산에 데이터 오류가 발생
문제5
- 히스토그램에서 bins를 사용한 범위 생성의 중요성을 인식하고 사용
진도
01-데이터정제_개요.ipynb
이상값(결측값) 처리는 제거가 필수는 아니기 때문에 분석의 목적, 종료에 따라 분석가의 적절한 판단(주관)이 필요
02-결측치_정제.ipynb
-
결측치 제거
결측치 제거의 경우 원본은 건들이지 않도록 한다
실수로 잘못 정제하면 데이터 추출부터 다시 해야함
-
결측치 대체
대체되는 결측치는 실수 형태로 변경
데이터 타입을 확인해야하는 이유
numpy 내부 함수를 사용해 결측치의 값을 처리할 수 있다(평균, 중앙값, 최빈값)
03-이상치_정제.ipynb
- 이상치 정제는 결측치 정제를 우선 수행한 후 진행
- 같은 작업이 2번 이상 반복되면 함수로 정의
- 같은 함수를 여러 번 사용할 경우 모듈로 정의
모듈이 바뀌면 jupyter를 재식작 후 실행
동일 폴더에 없다면 import os를 사용해 다른 폴더에 있는 python 모듈을 가져온다
- 상위 폴더에 존재하는 파일을 가져오기 위해 os의
- 상한값, 하한값 내부에 존재하지 않는 값을 찾아낸 후 NaN 값으로 변경
- 변경된 결측치 처리
- (연속성 자료)리스트 복사 : 얕은 복사 - 원본값도 바뀌기 때문에 return이 필요 없음
원본을 건들이지 않으려면 copy를 한 후 실행해야함(깊은 복사를 사용해 원본 값은 유지하며 실행) - 이때는 return을 실행
지도시각화
folium을 사용한 지도 시각화
- URL에서 위도와 경도를 추출한다
- 기본적인 마커를 사용하거나 별도의 이미지를 사용해 마커를 생성할 수 있다
- HTML을 사용해 지도에 나오는 정보 테마를 변경하거나 꾸밀 수 있다