마크다운 활용 : esc -> m -> 마크다운 편집기 작동
#개수가 많아질수록 글꼴 축소
'-' 시 동그라미로 표현 가능
셀 삽입/삭제 : esc -> a/x
Series :index와 value로 이루어져 있다.
한가지 데이터 타입만 가질 수 있다.
날짜 데이터 : pd.date_range("YYYYMMDD", periods=D)
YYYYMMDD로 부터 D일간의 date 출력
DataFrame : data, index, column을 포함한 데이터 집합
표준정규분포 내 난수 샘플링 : np.random.randn(index,column)
데이터 프레임 정보 확인 :
df.info() - 기본 정보 확인
df.describe() - 기술 통계 정보 확인
데이터 정렬 :
sort_values(by="컬럼명", ascending = False(기본값), inplace = False(기본값))
특정 컬럼(열)을 기준으로 데이터를 내림차순 정렬 / 원본 유지
데이터 선택 :
df["컬럼명"] : 해당 컬럼을 출력(type : pandas Series)
컬럼명이 문자열일시 df.컬럼명으로 출력 가능
df[["A","B"]] : 복수의 컬럼 출력 시 컬럼명을 list 형태로 기입
offset index
[n:m] : n부터 m-1까지
인덱스나 컬럼명으로 slice 하는 경우 끝을 포함
loc : location
index 이름으로 특정 행, 열을 선택
df.loc[:, ["A" , "B"]] : 컬럼 A, B의 모든 행을 출력
df.loc["20220602":"20220604", ["A" , "D"]] :
컬럼 A, D의 20220602 ~ 20220604 행을 출력
*loc에는 index에 숫자가 아닌 index 명이 와야함, index명이 있는 모든 행을 포함
df.loc["20220602":"20220604", "A":"D"] :
컬럼 A~D의 20220602 ~ 20220604 행을 출력
iloc : integer location
컴퓨터가 인식하는 인덱스 값으로 선택
df.iloc[3] : df의 index = 3인 행렬을 출력
df.iloc[3,2] : df의 index = 3, columns = 2인 행렬을 출력
df.iloc[3:5, 0:2] : df의 index = 3,4, columns = 0,1인 행렬을 출력
df.iloc[[1, 2, 4], [0, 2]] : df의 index = 1,2,4, columns = 0,2인 행렬을 출력
df.iloc[:, 1:3] : df의 columns = 1,2인 행렬 출력
condition
df["A"] > 0 : A 컬럼에서 0보다 큰 숫자(양수)만 출력
df[df["A"] > 0] : A 컬럼이 0보다 큰 경우의 모든 행만 출력(마스킹)
df[df > 0] : 전체 데이터에서 value < 0인 경우 NaN으로 표기하여 출력 * NaN : Not a Number
데이터 추가
df["K"] = ["one", "one", "two", "three", "four", "five"]
컬럼명 삽입, 행 개수에 맞는 데이터 삽입
isin()
value값 포함 여부 확인
df["E"].isin(["two","five"]) : df의 E 컬럼에 "two", "five"가 있는지 bool타입으로 출력
df[df["E"].isin(["two","five"])] : 위에서 True가 반환된 행만 출력
컬럼 제거
del df["F"] : F 열 제거
df.drop(["D"], axis=1) # axis=0 : 가로(행삭제), axis=1 : 세로(열삭제) --> axis에 맞게 index, column명 기입 필요
apply
데이터프레임에 원하는 기능 동작
df["A"].apply("sum") : A열의 총합
df["A"].apply("mean") : A열의 평균
df["A"].apply("min"), df["A"].apply("max") : tuple 형태 출력 (A열 최소값, A열 최대값)
df[["A","D"]].apply("sum") : A열, D열의 합
unique
pop_Seoul["A"].unique() : A열의 value들을 한번씩 리스트 형태로 출력
len(pop_Seoul["구별"].unique()) : A열 value의 종류