Series : 1차원 자료구조
DataFrame : 2차원 자료구조
(i) 연산
nums = [1, 5, 7, 9, 11] s_nums = pd.Series(data=nums) s_nums * 10 >>> 0 10 1 50 2 70 3 90 4 110 dtype: int64
nums * 10를 하면, 안에 있는 요소들이 10번 반복됨nums + 3를 하면, 아래와 같은 오류 발생
TypeError: can only concatenate list (not "int") to list(ii) 인덱스
bunsick_price = [3000, 1500, 4000, 2000, 3500] bunsick_list = ["떡볶이", "어묵", "순대", "닭강정", "우동"] bunsick = pd.Series(data=bunsick_price, index=bunsick_list) bunsick >>> 떡볶이 3000 어묵 1500 순대 4000 닭강정 2000 우동 3500 dtype: int64print(bunsick[0]) print(bunsick["닭강정"]) >>> 3000 2000인덱스 값에 이름을 부여할 수 있다.
dictionary와 유사하게 값과 이에 대응되는 인덱스 값으로 서로 연결되어 있음(iii) index와 value
bunsick.index >>> Index(['떡볶이', '어묵', '순대', '닭강정', '우동'], dtype='object') bunsick.values >>> array([3000, 1500, 4000, 2000, 3500])각 데이터 타입은
pandas.core.indexes.base.Index,numpy.ndarray이다.
df['column명'] = 추가할 데이터df.loc['index명'] = 추가할 데이터drop() : 데이터 삭제 함수axis = 0 or 1 (행:0, 열:1 을 기준으로 삭제)index : 특정 index 에 대해 데이터 삭제columns : 특정 column 에 대해 데이터 삭제inplace = True or False : 원본 데이터를 수정할 지, 말 지에 대해 선택: Null, NaN을 처리할 때 사용하는 함수
dropna() : 누락된 데이터가 있는 축 제외 (매개변수 : axis, how, thresh, inplace 등)fillna() : 누락된 데이터를 특정 값으로 대체 (ex: fillna(0))isnull() : Null 값인지 확인 (True, False 로 반환)notnull() : Null 값이 아닌지 확인 (True, False로 반환)
sum: 합mean: 평균count: Null 값을 제외한 데이터의 수를 반환argmin,argmax: 최소, 최대를 갖고 있는 데이터의 위치를 반환quantile: 0부터 1 까지의 분위수를 계산describe: 시리즈나 데이터프레임의 각 칼럼에 대한 요약 통계를 계산var/std: 표준 분산 / 표준 정규 분산cumsum/cumprod: 누적 합 / 누적 곱pct_change: 퍼센트 변화율