Day 37. 4/11(화) EDA 02

이동은·2023년 4월 12일
0
post-thumbnail

오늘의 목표

  • 서울CCTV파트 5까지 끝내기

달성 목표

  • 파트5 완료

오늘을 마치며

  • 인구수와 CCTV의 비율을 비교하는 그래프가 재미있게 느껴졌고, 코딩을 통해서 글을 적었을뿐인데, 글로 시각화 되는것을 보고 충격을 받았습니다. 이런식이라면 이 세상에 데이터 언어만 있으면 표현할 수 없는게 있을까? 싶을 정도였습니다. 앞으로 기초 심화 단계를 거쳐 프로그래밍 언어와 친해지는 좋은 계기가 될것이라고 생각합니다.

4/11일

  • 데이터는 병합하는게 쉽지 않다.(기본이 중요)

pandas에서 데이터 프레임을 병합하는 방법

  • pd.concat()
  • pd.merge()
  • pd.join()
  • 딕셔너리 안에 리스트 형태를 만들어주면 열값으로 데이터가 들어가고, 리스트 안에 딕셔너리 형태를 만들어주면 행값으로 데이터가 들어간다.

pd.merge()

  • 두 데이터 프레임에서 컬럼이나 인덱스를 기준으로 잡고 병합하는 방법
  • 기준이 되는 컬럼이나 인덱스를 키값이라고 한다.
  • 기준이 되는 키값은 두 데이터 프레임에 모두 포함되어 있어야 한다.
  • pd.merge(left, right, how='left', on='key')를 해석하면
    left열의 key값을 기준으로 데이터를 출력하고, key가 없으면 NaN으로 출력된다.
  • pd.merge(left, right, how='inner & outer', on='key')
  • inner와 outher는 교집합과 합집함을 나타낸다.

인덱스 변경

  • set_index()
  • 선택한 컬럼을 데이터 프레임의 인덱스로 지정

상관계수

-corr()

  • correlation의 약자.
  • 상관계수가 0.2이상인 데이터를 비교

matplotlib 그래프 기본 형태

  • plt.figure(figsize=(10, 6))
  • plt.plot(x, y)
  • plt.show

그래프의 기초

삼각함수 그리기

  • np.arange(a, b, c): a부터 b까지 c의 간격
  • np.sin(value)
  • 격자 무늬
  • 그래프 제목
  • x,y축 제목
  • 주황색, 파란색 선 데이터 씌어 구분

데이터 경향

numpy를 이용한 1차 직선 만들기

  • np.polyfit()= 직선을 구성하기 위한 계수를 계산
  • np.poly1d(): polyfit으로 찾은 계수로 파이썬에서 사용할 수 있는 함수로 만들어주는 기능

[본 글의 내용은 제로베이스 데이터 스쿨 강의 자료 내용 중 일부가 포함되어 있습니다.]

profile
또 다른 나를 찾아서

0개의 댓글