import numpy as np
Numpy 배열 : Ndarray (N-dimensional array)
하나의 배열 속 값들은 모두 동일한 자료형이어야 함
Ex. 1차원 배열의 shape = (3, )
Tip. 괄호의 개수 = 차원
Tip (3차원 배열). 2D 배열 개수 파악 → 2D 배열 형태 파악
배열 속성 확인

배열 생성
유형1: Python의 list나 tuple을 numpy 배열로 만듦
유형2: 모두 같은 원소
유형3: 연속적인 원소
유형4: 랜덤 주어진 배열 존재
유형5: 랜덤 주어진 배열 존재 X
배열 형태 변환
배열 연산
import pandas as pd
obj.index series 객체의 index 알 수 있음
obj.values 객체의 데이터(value) 알 수 있음
결측치(NaN) missing value 확인
obj.isnull()
obj.notnull()
객체 생성
객체 속성 확인
데이터 상하단 n개 행 출력
컬럼(열)별 기술통계량 출력
칼럼별 결측치, 데이터타입 등 출력
데이터 선택
Row 선택
Column 선택
특정 데이터 선택
➕Column은 loc, iloc을 잘 안 쓰는 이유?
df.loc[행, 열] 또는 df.iloc[행번호, 열번호] 이 원형태인데,
행만 선택할 때는 뒤에 나오는 열을 생략하면 되니까 간편하지만 열만 선택하려고 하면
loc[ : , ’칼럼명’ ] 이런식으로 사용해야하므로 복잡함.
여기서 : 은 전체 선택을 의미.
데이터 수정(추가/삭제)
행,열 추가
행,열 삭제
정렬
데이터 연산
.sum()
.mean()
.std() , .var()
.min() , .max()
.idxmin() , .idxmax()
➕ 왜 인덱스 반환할 때 numpy에서는 arg를 쓰고 pandas에서는 idx를 붙일까?
.median()
.quantile(n) n분위 수 반환
.apply() 괄호 안 함수를 모든 데이터에 적용
f = lamba x : x.max() - x.min()
df.apply(f, axis = 0) #최저기온 열 중 최댓값과 최솟값의 편차, 최대기온 열 중 최대값과 최솟값의 편차
f = lamba x : x.max() - x.min()
df.apply(f, axis = 1) #지역별 최고기온과 최저기온의 편차
Pandas 파일 입출력
파일 읽어오기
pd.read_csv( ‘파일경로/파일이름.csv’ ,
header = column명으로 지정하고 싶은 row번호,
index_col = index명 지정하고 싶은 column 번호,
skiprows = 스킵하고 싶은 row 개수,
nrows = 위에서부터 읽어오고 싶은 row 개수,
encoding = 인코딩 방식 ) pd.read_excel(’파일경로/파일이름.xlsx’)➕ 인코딩 방식 UTF-8 vs CP949(CD949)