판다스(Pandas)는 파이썬 프로그래밍 언어를 위한 데이터 조작과 분석을 위한 라이브러리
데이터 읽기와 쓰기
CSV, Excel, SQL, JSON 등 다양한 데이터 형식의 파일을 읽고 쓰기
데이터 선택과 조작
열 선택, 행 선택, 조건에 따른 데이터 필터링, 계산 등을 수행
데이터 그룹화와 집계
데이터를 그룹화하여 통계적인 연산을 수행
결측치 처리
누락된 데이터를 처리하는 기능을 제공
시계열 데이터 지원
시간과 관련된 데이터를 처리하는 기능을 지원
데이터 시각화
Matplotlib와 함께 사용하여 데이터를 시각화
확장명은 jupyter를 사용해야 하기 때문인거 같음 ! (일반 파이썬의 확장명은 .py 임)
import pandas as pd
# pd는 판다스의 약칭 alias 임
read_csv() 함수를 사용해서 csv 파일을 불러오기
csv_data = 'my_data.csv'
## pandas 라이브러리의 read_csv() 함수를 이용해서 파일을 불러오기
df = pd.read_csv('../my_data.csv') # 경로 설정 주의
print(df)
데이터 프레임(df) 출력값
## 칼럼의 이름을 전체적으로 지정해주면서 수정함
df.columns = ['del', 'name', 'age', 'salary']
print(df)
## 특정 칼럼 값만 바꿀 수 있음
rename_df = df.rename(columns= {'Unnamed: 0':'del'})
print(rename_df)
## 칼럼명이 delete인 열을 제거 !
df=df.drop('delete', axis=1)
print(df)
## 영어 이름과 한국어 이름을 매핑한 딕셔너리 생성
name_korean = {
'Alice' : '앨리스',
'Bob' : '밥',
'Charlie': '찰리',
'james': '제임스',
}
## 'name' 열의 값들을 'name_korean' 딕셔너리를 사용하여 한국어 이름으로 바꿈
df['name'] = df['name'].replace(name_korean)
print(df)
# 한국 원 단위로 숫자를 변환하는 함수 정의
def korean_won(number):
return '{:,.0f}'.format(number)
# 천 단위마다 쉼표(,)가 추가, 소수점 이하는 버림
# 'salary' 열에 있는 모든 값에 'korean_won' 함수를 적용하여 한국 원 단위로 변환
df['salary'] = df['salary'].apply(korean_won)
# .apply(korean_won)은 korean_won을 df에 있는 salary 칼럼의 '모든 열 값에 적용'해라.
print(df)
df_string = df.to_string(index=False)
print(df_string)
## csv파일로 저장하기
df.to_csv('my_data_out.csv', index=False)
그럼 해당 작업 폴더에 csv 파일이 뿅 ! 생긴다 !