[데이터취업 스쿨 4주차] pandas 모듈로 csv, excel 파일 읽어오기

Gracie·2024년 5월 6일
0

초반 실습은 jupyter로 크롬 브라우저에서하지만, vscode로도 실행해보는 습관이 들여야 한다고 했다. 아직은 둘 다 익숙하지 않아서 우선 좀 더 깔끔해보이는 jupyter로 실습을 진행해보려고 한다.
이론 강사님 사투리 쓰셔서 좀 귀여우심...ㅋㅋㅋㅋ 말투도 친근해서 좋다 ^^


1. prompt로 원하는 위치에서 jupyter notebook 실행하기

모든 동작은 anaconda prompt에서, 미리 만들어 놓은 ds_study 환경을 기반으로 실행한다. 아직 그 이유는 잘 모르겠다 ... jupyter notebook 바로 실행하면 되는거 아닌가? 싶긴 한데 (왕초보의 생각) 어쨌든 원하는 위치에서 jupyter notebook 실행하는 코드는 아래와 같다

cd Documents/ds_study
jupyter notebook

cd 해당 위치(폴더)로 이동하는 명령
.. 현재 위치의 상위 폴더로 이동 함

code . vscode를 실행하는 명령

conda activate ds_study
# 환경을 원하는 폴더 내 생성해놔서 해당 명령만으로도 바로 위치 이동이 가능한 것 같은데, 확실치는 않다


2. pandas 모듈의 read() 사용하기

1. CCTV_Seoul = pd.read_csv(파일명, encoding = utf-8)

  • cvs파일을 읽어오는 명령, excel파일도 읽어올 수 있음
  • header = 숫자 해당 숫자 다음 행부터 읽어옴
  • usecols = 열 이름 해당하는 열만 읽어옴

2. CCTV_Seoul.rename(columns = {현재 열이름: '변경할 열 이름})

  • 열 이름을 변경해주는 함수
  • inplace = True 해당 인스턴스를 넣어줘야지 원본 데이터 값이 바뀜

3. head(), tail()

  • index 처음, 끝부터 값을 불러오는 함수
  • 숫자를 생략하면 5개 씩 불러옴


그래서 Pandas가 뭔데?

파이썬 유저들이 데이터를 정리할 때 가장 많이 사용하는 모듈 중 하나로 굉장히 유용한 모듈이다 !!

  • pandas는 통상 pd로 import / numpy는 통상 np로 import

    	import pandas as pd
    	import numpy as np
  • Pandas의 데이터형을 구성하는 기본은 Series

  • 날짜(시간)를 이용할 수 있다

profile
비전공자의 Data Analyst 도전기 🥹✨

0개의 댓글