• 마크다운 활용 : esc -> m -> 마크다운 편집기 작동
    #개수가 많아질수록 글꼴 축소
    '-' 시 동그라미로 표현 가능

  • 셀 삽입/삭제 : esc -> a/x

  • Series :index와 value로 이루어져 있다.
    한가지 데이터 타입만 가질 수 있다.

  • 날짜 데이터 : pd.date_range("YYYYMMDD", periods=D)
    YYYYMMDD로 부터 D일간의 date 출력

  • DataFrame : data, index, column을 포함한 데이터 집합

  • 표준정규분포 내 난수 샘플링 : np.random.randn(index,column)

  • 데이터 프레임 정보 확인 :
    df.info() - 기본 정보 확인
    df.describe() - 기술 통계 정보 확인

  • 데이터 정렬 :
    sort_values(by="컬럼명", ascending = False(기본값), inplace = False(기본값))
    특정 컬럼(열)을 기준으로 데이터를 내림차순 정렬 / 원본 유지

  • 데이터 선택 :
    df["컬럼명"] : 해당 컬럼을 출력(type : pandas Series)
    컬럼명이 문자열일시 df.컬럼명으로 출력 가능
    df[["A","B"]] : 복수의 컬럼 출력 시 컬럼명을 list 형태로 기입

  • offset index
    [n:m] : n부터 m-1까지
    인덱스나 컬럼명으로 slice 하는 경우 끝을 포함

  • loc : location
    index 이름으로 특정 행, 열을 선택
    df.loc[:, ["A" , "B"]] : 컬럼 A, B의 모든 행을 출력
    df.loc["20220602":"20220604", ["A" , "D"]] :
    컬럼 A, D의 20220602 ~ 20220604 행을 출력
    *loc에는 index에 숫자가 아닌 index 명이 와야함, index명이 있는 모든 행을 포함
    df.loc["20220602":"20220604", "A":"D"] :
    컬럼 A~D의 20220602 ~ 20220604 행을 출력

  • iloc : integer location
    컴퓨터가 인식하는 인덱스 값으로 선택
    df.iloc[3] : df의 index = 3인 행렬을 출력
    df.iloc[3,2] : df의 index = 3, columns = 2인 행렬을 출력
    df.iloc[3:5, 0:2] : df의 index = 3,4, columns = 0,1인 행렬을 출력
    df.iloc[[1, 2, 4], [0, 2]] : df의 index = 1,2,4, columns = 0,2인 행렬을 출력
    df.iloc[:, 1:3] : df의 columns = 1,2인 행렬 출력

  • condition
    df["A"] > 0 : A 컬럼에서 0보다 큰 숫자(양수)만 출력
    df[df["A"] > 0] : A 컬럼이 0보다 큰 경우의 모든 행만 출력(마스킹)
    df[df > 0] : 전체 데이터에서 value < 0인 경우 NaN으로 표기하여 출력 * NaN : Not a Number

  • 데이터 추가
    df["K"] = ["one", "one", "two", "three", "four", "five"]
    컬럼명 삽입, 행 개수에 맞는 데이터 삽입

  • isin()
    value값 포함 여부 확인
    df["E"].isin(["two","five"]) : df의 E 컬럼에 "two", "five"가 있는지 bool타입으로 출력
    df[df["E"].isin(["two","five"])] : 위에서 True가 반환된 행만 출력

  • 컬럼 제거
    del df["F"] : F 열 제거
    df.drop(["D"], axis=1) # axis=0 : 가로(행삭제), axis=1 : 세로(열삭제) --> axis에 맞게 index, column명 기입 필요

  • apply
    데이터프레임에 원하는 기능 동작
    df["A"].apply("sum") : A열의 총합
    df["A"].apply("mean") : A열의 평균
    df["A"].apply("min"), df["A"].apply("max") : tuple 형태 출력 (A열 최소값, A열 최대값)
    df[["A","D"]].apply("sum") : A열, D열의 합

  • unique
    pop_Seoul["A"].unique() : A열의 value들을 한번씩 리스트 형태로 출력
    len(pop_Seoul["구별"].unique()) : A열 value의 종류

profile
개발도상인 냄비짱

0개의 댓글