Pandas 라이브러리는 자주 사용되거나 유용한 내장 함수
- read_csv()
CSV 파일을 읽어 데이터프레임으로 변환하는 함수입니다.
df = pd.read_csv('file.csv')
- head() 및 tail()
데이터프레임의 처음 또는 마지막 몇 행을 확인하는 함수입니다.
print(df.head(5)) # 처음 5행
print(df.tail(5)) # 마지막 5행
- info()
데이터프레임의 구조와 요약 정보를 출력합니다.
print(df.info())
- describe()
데이터프레임의 통계 요약 정보를 제공합니다.
print(df.describe())
- value_counts()
특정 열의 고유 값의 빈도를 계산합니다.
print(df['ColumnName'].value_counts())
- isnull() 및 dropna()
결측값을 확인하고 제거하는 함수입니다.
print(df.isnull().sum()) # 결측값 개수 확인
df_clean = df.dropna() # 결측값이 있는 행 제거
- fillna()
결측값을 특정 값으로 채웁니다.
df['ColumnName'] = df['ColumnName'].fillna('DefaultValue')
- groupby()
데이터를 특정 열을 기준으로 그룹화합니다.
grouped = df.groupby('ColumnName')
- pivot_table()
피벗 테이블을 생성합니다.
pivot = df.pivot_table(values='ValueColumn', index='IndexColumn', columns='Columns', aggfunc='mean')
- merge()
두 데이터프레임을 병합합니다.
df_merged = pd.merge(df1, df2, on='KeyColumn', how='inner') # 'inner', 'left', 'right', 'outer' 조인 가능
- concat()
여러 데이터프레임을 연결합니다.
df_concat = pd.concat([df1, df2], axis=0) # 행 방향 연결
df_concat = pd.concat([df1, df2], axis=1) # 열 방향 연결
- apply()
함수나 람다식을 데이터프레임의 열 또는 행에 적용합니다.
df['NewColumn'] = df['ExistingColumn'].apply(lambda x: x * 2)
- map()
특정 열에 대해 매핑 규칙을 적용합니다.
df['NewColumn'] = df['ExistingColumn'].map({'A': 1, 'B': 2})
- astype()
데이터 타입을 변환합니다.
df['ColumnName'] = df['ColumnName'].astype(float)
- sort_values()
특정 열을 기준으로 데이터프레임을 정렬합니다.
df_sorted = df.sort_values(by='ColumnName', ascending=False)
- drop()
특정 행 또는 열을 제거합니다.
df_dropped = df.drop(['ColumnName1', 'ColumnName2'], axis=1) # 열 제거
df_dropped = df.drop([0, 1], axis=0) # 행 제거