제로베이스 5주차

김정인·2023년 4월 2일
0

데이터스쿨13기

목록 보기
13/17

5주차 학습 리뷰 :
파이썬중급, 기초수학, 알고리즘의 연습문제는 진도를 따라가면서 시간이 될 때에 조금씩 학습해야할 것 같다. 일이 끝난 후 공부했을 떄 모든 학습을 다 따라가기에는 시간이 부족하다ㅠㅠ..

3월28일 (기초수학 완료)

4월2일

<서울시 CCTV 현황 분석 프로젝트>

목표
1. 서울시 구별 cctv현황 데이터 확보
2. 인구 현황 데이터 확보
3. cctv데이터와 인구현황데이터 합치기
4. 데이터 정리, 정렬
5. 그래프그리기
6. 전제적인 경향을 파악
6. 경향에서 벗어난 데이터를 강조

Pandas에서 엑셀 및 텍스트파일 읽기

  • Python에서 R만큼 강력한 데이터 핸들링 성능을 제공
  • 단일 프로세스에서는 최대 효율
  • 코딩 가능하고 응용 가능한 엑셀로 받아들여도 됨
  • 원하는 모듈이 설치되어 있다면 import 명령을 통해 사용하겠다고 선언
import pandas as pd
  • import MODULE : MODULE을 사용하겠다
  • import MODULE as md : 모듈을 사용할건데 앞으로는 md라 부름
  • from MODULE import function : 모듈에 포함된 펑션이라는 함수만 사용하겠다는 것.
  • 통상 csv는 띄어쓰기로 구분되니 그냥 read_csv 명령으로 읽기만해도 된다.
  • 긴 파일명을 끝까지 입력하지 말고 적당한 곳에서 tab키를 눌러보자
  • 한글은 encoding 설정이 필수.
  • index : 가로 방향의 데이터
  • column : 세로 방향의 데이터
  • value : 표 안의 데이터 값
  • column의 이름을 조회할 수 있다.
  • column이 겹치는 것이 많으면 불렀을 때 표가 이상할 수도 있음
    - header=2 : 2번줄 부터 읽는 것이 가능, 읽기 시작할 행 지정
    - usecols="B, D, G, J, N" : 필요한 열만 지정 가능
  • pandas는 통상 pd로 import하고 수치해석적 함수가 많은 numpy는 통상 np로 import한다.
  • Pandas의 데이터형을 구성하는 기본은 Seriesd이다.
  • Pandas에서 가장 많이 사용되는 데이터형은 DataFrame이다
  • index와 colums를 지정하면 된다.
  • sort_values : 데이터를 정렬
  • df[행, 열] : 행, 열 선택해서 나타내기
    - df[n:m, n:m] :n부터 m-1까지
  • del 명령은 제거됌 del df[0]

0개의 댓글