굉장히 유용한 모듈.
pandas는 통상 pd로 import하고
수치해석적 함수가 많은 numpy는 통상 np로 import한다.
가장 간단한 데이터형식으로 Series가 있다.(pd.Series)
pd.date_range : 시간, 날짜를 다루는 함수
df = pd.DataFrame(행렬의 크기, index=dates, columns=['각 콜롬의 이름 지정'])
df.info() : DataFrame의 기본 정보를 제공
df.describe() : DataFrame의 통계적 기본 정보를 제공
df.sort_values(by="원하는 열의 이름", acending=내림차순(False) or 오름차순(True)) : 원하는 열을 기준으로 정렬이 된다.
df["A"] : "A" 열만 출력
df[0:3] : 0,1,2 행의 값 출력 (마지막 값인 3 행의 값은 출력하지 않는다.)
그러나 인덱스나 열의 이름으로 slice하는 경우는 마지막 끝을 포함한다.
df.loc[행,열] :로컬한 값을 보고싶을때 쓸수 있다. 이름으로도 사용가능.
iloc은 숫자로만 설정한다.
df.iloc[n] : 행값이 나옴.
df.iloc[3:5, 0:2] : 3행 4행 과 0열, 1열이 겹치는 부분이 출력
df[df["A"] > 0] : 일때, df의 값을 출력하라는 말이므로 "A" 열이 0보다 작은 행을 제외하고 출력한다.
df[df > 0] : df 안에서 0보다 작은 값들이 NaN 처리 된다.
특정요소가 있는 행만 선택하려면 .isin 사용
df[df["E"].isin(["two","four"])
del df["E"] : "E" 열 지움.
df.apply(np.cumsum) : 각 열의 누적합을 출력.