[zerobase_데이터 취업스쿨_스터디노트] 12.pandas데이터합치기_판다스기초_merge

김소희·2023년 11월 28일
0

study_note

목록 보기
12/50

저번 시간에 미니콘다 설치와 가상환경만들기 및 판다스 기초 사용법을 배웠다.
노트정리는 따로 하지 못했지만 github 에 매일 push 하고 있다.

깃헙링크

이번 데이터 합치기부터는 살짝 내용이 어려워져서 스터디노트로 상세히 기록해 두려고 한다.

먼저 다운로드 해놓은 미니콘다를 실행한다.

가상환경을 구축하는 것 부터 다시 정리하려고 한다.

  1. 콘다 프롬프트를 실행
  2. 가상환경 만들기 (ds_study부분은 가상환경의 이름이기 때문에 원하는 걸로 하면 된다.)
  3. 파이썬 버전도 함께 설정해 준다. (수업 때 설정하신 버전이라서 그냥 똑같이 함.)
conda create -n ds_study python=3.8

로딩이 걸리고

이런 화면이 뜨면 y 를 입력하고 엔터를 치면 바로 깔린다.

다운로드가 완료가 되면 만들어 둔 가상환경으로 이동해야 한다.

그 가상환경에 내가 사용 할 여러가지 파이썬 패키지들을 수동으로 깔아주어야 하는데

이것이 미니콘다의 특징이다. 아나콘다보다 가벼운 대신에 일일이 패키지를 설치해 주어야 하는데

아직은 사용하는 모듈이 많지 않기 때문에 나는 미니콘다가 훨씬 편리하다는 생각이 들었다.

아무튼 본론으로 돌아와서

  1. 가상환경이동
conda activate ds_study

이동된 것을 확인할 수 있다.

필요한 패키지들을 pip install ~ 로 해서 다 깔아준 후 주피터 노트북을 실행한다.

또는 내가 원하는 파일의 위치로 이동한 뒤,

code . 

를 쳐서 실행시키면 자동으로 vs code 가 실행이 된다.
나는 여기서 진행을 해보려고 한다.

pandas 에서 데이터 프레임을 병합하는 방법

  • pd.concat()
  • pd.merge()
  • pd.join()

DataFrame 을 만드는 방법이 2가지 이다.
1) 딕셔너리 안에 리스트를 만든 형태 -> 데이터가 행의 값으로 들어감
2) 리스트 안에 딕셔너리를 만든 형태 -> 데이터가 열의 값으로 들어감

이 2가지 데이터프레임을 합쳐본다.

pd.merge()

  • 두 데이터 프레임에서 컬럼이나 인덱스를 기준으로 잡고 병합하는 방법
  • 기준이 되는 컬럼이나 인덱스를 키값이라고 한다.
  • 기준이 되는 키값은 두 데이터 프레임에 모두 포함이 되어있어야 한다.

  • on, how 등등 매개변수를 이용해서 조금 더 정밀한 데이터 병합이 가능하다.

  • 반대로 how 를 right로 주니 NaN 의 값의 위치가 달라진 것을 확인 할 수 있다.

  • how 의 기본값은 inner 인데 inner는 교집합을 의미하고, 모든 데이터를 다 보고 싶다면 how 에 outer를 넣어주면 된다.

오늘은 여기까지 살펴보았다.

다음시간에는 pandas 데이터 합치기 실습을 한 번 더 하고,
matplotlib 다루는 연습을 하려고 한다.

후...재밌으면서도 조급하다. 내가 과연 이 것들으 보지 않고도 술술 다루는 날이 올까?
빨리 왔으면 좋겠다. 그럼 데이터를 만지는 것에 더 희열을 느낄 수 있으리니!!

profile
AI 개발자로 가는 길 두렵지 않아요

0개의 댓글