- 인구현황 데이터(raw) ---> drop 적용하기
< 참고 >
- 고유한 값의 리스트 확인(중복제외)
- 길이, 아이템 개수 확인
- 다양한 기준별 정렬 확인
<이론>
- merge( )를 이용한 데이터 병합
- Pandas DataFrame 데이터 간 병합은 빈번하게 발생
- 병합 후 데이터가 엉망이 되지 않도록 각별히 주의할 것!
(정확하게 병합이 되었는지 확인하는 것도 관건...)
[예시] left & right = 두 개의 데이터 준비
- "key" 를 기준으로 병합
: 양쪽 모두 공통으로 보유한 값을 key 컬럼 기준으로 병합
- "key" 기준 + how 추가
: how를 추가함으로써, left 데이터를 모두 유지시키되 key 칼럼을 중심으로 병합
- (합집합 개념) "key" 기준 + how="outer"
: key 컬럼을 중심으로 + 양쪽 모두 손상된 값 없이 그대로 병합
- (교집합 개념) "key" 기준 + how="inner"
- key 컬럼을 중심으로 + 양쪽 모두 보유하고 있는 공통된 값만 병합
- pd.merge(left,right, on="key")와 사실상 동일한 결과를 나타냄
= how 없이 key값만 설정할 경우(1번 예시), how의 디폴트 값은 자동으로 inner로 적용됨
<실습>
- merge를 이용하여 '인구 데이터'와 'CCTV 데이터' 합치기
- del 이용하여 분석에 필요없는 데이터 컬럼 지우기
- set_index를 이용하여 index를 재지정 하기
- pandas에서 자동으로 설정한 인덱스(0,1,2...)를 데이터 정제과정에서 재지정
- unique한 인덱스(=복수가 아닌 하나씩만 존재하는 인덱스)로 재지정하여야 시각화 자료 작성 시 유리함
- corr( ) 이용하여 상관관계(Correlation) 훑어보기
- 데이터의 관계를 찾을 때 최소한의 근거가 있어야 해당 데이터를 비교하는 의미가 있음
- 상관계수를 조사하여 0.2 이상의 데이터를 비교하는 것을 권장(ㅣ0 < r < 1 l )
0.2 이하 = 상관관계가 없거나 무시해도 되는 수준
0.4 이하 = 약한 상관관계
0.6 이상 = 강한 상관관계
- 인구대비 CCTV 비율을 의미하는 칼럼(CCTV비율)을 추가하여 정렬
- matplotlib을 이용하여 분석 결과 시각화하기 - to be cotinued