Data Frame
- pd.Series()
- index, value- pd.DataFrame()
- index, value, column
data = np.random.randn(6,4)
data
결과
array([[ 1.0596305 , 0.99747143, 0.60812025, 1.24650776],
[ 1.1670468 , 0.25991248, 2.17937082, 0.01444101],
[-0.98164731, -0.40103702, -0.97495438, 0.1525716 ],
[-1.49557875, 1.25831222, -1.22641321, -0.10352021],
[ 0.11937387, 0.85537738, 0.00833698, -0.15012135],
[-0.55412965, 0.70938068, -0.42676451, 1.61909564]])
df = pd.DataFrame(data, index=dates, columns=['A','B','C','D'])
df
결과
Data 선택
- [n:m] : n부터 m-1까지
- 인덱스나 컬럼의 이름으로 slice하는 경우는 끝을 포함합니다.
df['20210101':'20210104']
index이름으로 특정, 행, 열을 선택
df.loc[:,['A','B']]
Condition
df['A'] > 0
컬럼 추가
- 기존 컬럼이 있으면 수정
- 기존 컬럼이 없으면 추가
df['B'].isin(['two','five'])
마킹하면 데이터를 보여줌
df[df['B'].isin(['two','five'])]
특정 컬럼 제거
-del
-drop
apply
- 일괄적으로 함수를 적용해줌
- sum, mean, min, max, np.sum, np.std...
def plusminus(num):
return "plus" if num > 0 else "minus"
df["A"].apply(lambda num : "plus" if num > 0 else "minus")
자료 출처: 제로 베이스 데이터 취업 스쿨