새싹 교육 프로그램 '서울시 공공데이터를 활용한 데이터 분석' 김자영 강사님 수업 정리글입니다.
pandas란
파이썬에서 데이터를 조작/분석하기 위한 라이브러리
- 행/열로 이루어진 테이블 형태의 데이터를 다룬다.
- 엑셀로 다루지 못하는 대용량 데이터를 다룰 수 있다
- matplotlib, seaborn 등 다양한 시각화 도구와 함께 사용할 수 있다
list의 index는 항목의 순서를 나타냄
dataframe의 series, index는 데이터의 이름을 붙여주는 것이다.
데이터 프레임 생성
- low 단위 ← list로 생성
- column단위 ← dictionary로 생성
리스트로 데이터프레임 생성
dictionary의 key 값이 데이터의 이름이 되고
value가 데이터의 값이 된다.
- columns=['name','age','job'] : 열 이름 정해 주는 것
- index=['a','b','c'] : 행 이룸 정해 주는 것
딕셔너리로 데이터프레임 생성