anaconda prompt 사용법
conda activate ds_study
cd Documents
cd ds_study
cd .. : 상위폴더로 이동
code . : vscode 실행
jupyter notebook : 쥬피터노트북 실행
판다스 함수 사용법
구글링 : pandas read_excel documentation
F1 검색 select interpreter

(p.23)

import MODULE → MODULE.function
import MODULE as md → md.function
from MODULE import function → function


CCTV_Seoul = pd.read_csv("../data/01. Seoul_CCTV.csv", encoding="utf-8")
CCTV_Seoul.head()
CCTV_Seoul.columns # 칼럼명 전체
CCTV_Seoul.columns[0] # 첫번째 칼럼만
CCTV_Seoul.rename(columns={CCTV_Seoul.columns[0]: "구별"}, inplace=True)
# inplace : 바뀐걸로 저장 (default = False)
CCTV_Seoul.head()
pd.read_csv("경로", encoding="utf-8") 읽어오기
columns 컬럼 이름 조회하기
head() 처음5개
tail() 끝5개
header 날릴 열. 자료를 읽기 시작할 행(헤더) 지정
usecols 읽어올 엑셀의 컬럼을 지정. 일부만 사용할 때.
rename 이름 변경
import pandas as pd
CCTV_Seoul = pd.read_csv("../data/01. Seoul_CCTV.csv")
CCTV_Seoul.head()
CCTV_Seoul.columns
CCTV_Seoul.columns[0]
CCTV_Seoul.rename(columns={CCTV_Seoul.columns[0]: "구별"}, inplace=True)
CCTV_Seoul.head()
pd.read_excel("경로") 읽어오기
header 날릴 열. 자료를 읽기 시작할 행(헤더) 지정
usecols 읽어올 엑셀의 컬럼을 지정. 일부만 사용할 때.
rename 이름 변경
pop_Seoul = pd.read_excel(
"../data/01. Seoul_Population.xls", header=2, usecols="B,D,G,J,N"
)
# 위에 2줄 날리고, BDGJN컬럼만 가져온다
pop_Seoul.head()
pop_Seoul.rename(
columns={
pop_Seoul.columns[0]: "구별",
pop_Seoul.columns[1]: "인구수",
pop_Seoul.columns[2]: "한국인",
pop_Seoul.columns[3]: "외국인",
pop_Seoul.columns[4]: "고령자",
},
inplace=True,
)
pop_Seoul.head()
(p.37)
import pandas as pd
import numpy as np











행 제거 : drop

컬럼(열) 제거 : del

인덱스 재지정 : set_index
: unique한 값으로 잡기

그러나 인덱스나 컬럼의 이름으로 slice하는 경우는 끝을 포함함!


로케이션. 보편적인 slice 옵션. 이름으로도 사용 가능.
1) 모든 행 + A,B열

2) 행 구간 + A,B열

3) 특정 행 + A,B열

iLOC 옵션을 이용해서 번호로만 접근. n부터 m-1까지




df[condition] 과 같이 사용하는 것이 일반적.
pandas 버전에 따라 조금씩 문법이 다르다.

1) A칼럼이 0보다 큰 것들만

2) 값이 0보다 큰 것들만

3) E라는 컬럼을 새로 만들어라

4) isin : E컬럼에 two나 four가 있느냐를 bool 타입으로 표시

5) E라는 컬럼에 two나 four가 있는 것(True인 것)만 표시해라




(p.69)
많은 순서 : 내림차순

컬럼 연산해서 새 컬럼 만들기

(p.75)
행을 지우는 명령 : drop

합계 행만 지우기

unique 조사

(p.86)
pd.DataFrame({"컬럼명":["0값", "1값", "2값"})


데이터 병합 : merge
on="key" : key를 기준으로 공통인 것만 (교집합)
즉, 기본적으로 how="inner"가 디폴트임

데이터 병합 - how 옵션 ( left / right )







(p.104)












(p.119)




(p.129)
: 직선으로 표현

np.polyfit(x축데이터, y축데이터, 그래프 차수) -> 직선 1차식

함수 활용

그래프 그리기
linspace : 등간격 데이터 생성


fx, f1(fx)를 넣어 경향선 그리기

(p.141)

: 위에서 만든 경향선 만든 것 활용해서
오차가 많이 나는 데이터를 내림차순/오름차순으로 정렬


컬러맵 세팅

Matplot Color Map 종류 (Cmap)
https://jrc-park.tistory.com/155
그래프 그리기
반복문 : 내림차순/오름차순 각각 상위 5개씩, 글자를 찍을 x,y값 위치좌표 주고, 구 이름 찍기
(x1.02, x0.98을 하는 이유 : 마커랑 겹치지 않게 조금씩 벗어나라고)
plt.text() : 글자를 찍는 함수





20-01 plotting기초 (plot)
https://wikidocs.net/159927