[0120]EDA 기초 학습 기록

이아연·2024년 1월 21일
0

CCTV 데이터 훑어보기

  1. 인구데이터에 외국인비율, 고령자비율 콜럼 추가
  2. CCTV데이터, 인구 데이터 병합 .merge()
  3. 필요없는 데이터 삭제 .drop()
  4. 인덱스 변경 .set.index()
  5. 데이터 상관계수 확인 .corr()
  6. CCTV 비율 구하기

.unique() : 중복되지 않는 값을 보여줌

외국인 비율, 고령자 비율 계산

인덱스 1:1로 대응되어 바로 계산 가능

두 데이터 합치기

Pandas에서 데이터 프레임을 병합하는 방법

  • pd.concat()
  • pd.merge()
  • pd.join()

딕셔너리 안의 리스트 형태

리스트 안의 딕셔너리 형태

pd.merge(left, right, how=, on=)

  • 두 데이터 프레임에서 컬럼이나 인덱스를 기준으로 잡고 병합하는 방법
  • 기준이 되는 컬럼이나 인덱스를 키값이라고 한다
  • 기준이 되는 키값은 두 데이터 프레임에 모두 포함되어 있어야 한다

교집합. 디폴트값 how='inner'로 설정되어 있음

left를 기준으로 데이터 병합

합집합. how='outer'

연도별 데이터 컬럼 삭제

인덱스 변경

  • .set_index("구별", inplace=True)

상관계수

  • corr()
  • correlation의 약자
  • 상관계수가 0.2 이상인 데이터를 비교
    0.2 : 약한 상관계수, 1에 가까워질 수록 상관관계가 높다

데이터 안에 str이 있으면 계산 못함

CCTV비율 구하고, 오름차순 정렬

데이터 시각화

matplotlib 기초

import matplotlib.pyplot as plt
from matplotlib import rc

rc("font", family="Malgun Gothic")
plt.rcParams['axes.unicode_minus']=False
get_ipython().run_line_magic("matplotlib","inline")

matplotlib 그래프 기본형태

  • plt.figure(figsize=(10,6))
  • plot.plot(x, y)
  • plot.show()

  1. 격자무늬 추가 plt.grid(True)
  2. 그래프 제목 추가 plt.title('')
  3. x, y축 제목 추가 plt.xlabel(''), plt.ylabel('')
  4. 주황색, 파란색 선 데이터 의미 구분 label=''
  5. plt.legend(loc=) 범례위치

그래프 커스텀

plt.figure(figsize=(10,6))
plt.plot(t, t, "r--") # red-----
plt.plot(t, t**2, "bs") #blue square
plt.plot(t, t**3, "g^") # green triangle
plt.show()


colormap = t

def drawGraph():

    plt.figure(figsize=(20,6))
    plt.scatter(t,y, s=100, c=colormap, marker=">")
    plt.grid(True)
    plt.colorbar()
    plt.show()
drawGraph()

Pandas에서 plot 그리기

소계 컬럼 시각화

내림차순으로 정렬된 CCTV개수

def drawGraph():
    data_result["소계"].sort_values().plot(
        kind="barh", grid=True, title="가장 CCTV가 많은 구",figsize=(10,10));
drawGraph()

자료 출처: 제로베이스 데이터 취업 스쿨

profile
Hi Welcome

0개의 댓글