데이터 불러오기 및 데이터프레임 형식으로 바꾸기

import pandas as pd

data = pd.read_csv("my_data.csv")
df = pd.DataFrame(data)

Unnamed:0라고 표기되는 열을 새로운 이름으로 바꾼 뒤 지우기

df = df.rename(columns={'Unnamed: 0':'unnamed_col'})
df = df.drop('unnamed_col', axis=1)

먼저 name 열에 어떤 값들이 있는 지 확인해보기

df['name'].value_counts()

name에 해당되는 영문 이름을 한글로 바꾸기

df = df.replace({'Alice':'앨리스', 'Bob':'밥', 'Charlie':'찰리', 'james':'제임스'})

0,1,2,3,4로 보여지는 index 부분을 지우기

set_index() 메서드: 데이터프레임의 특정 열을 행 인덱스로 설정.

df = df.set_index('name')

salary 열에 어떤 값들이 있는 지 확인해보기

df['salary'].value_counts()

salary에 해당되는 숫자를 000 세자리 단위로 콤마를 넣어서 값을 바꿔 넣기

- 포맷팅을 .apply()로 적용하는 방법

df['salary'] = df['salary'].apply('{:,}'.format)

# 참고로 어차피 값들이 문자열이 아니라서 
# 함수 말고 그냥 .format 바로 적용해줘도 됨.
  • 데이터프레임['컬럼명'].apply(정의한 함수명):
    내가 정의한 함수에 따라 특정 column의 값들을 '일괄적으로 변경'할 수 있음.

  • int(x):
    각 'salary' 값이 문자열 형태일 경우 정수로 변환.

  • "{:,}".format():
    정수로 변환된 값을 천 단위마다 쉼표(,)를 추가하여 문자열로 포맷.
    예를 들어, 50000을 "50,000"으로 변환.

  • :는
    포매팅 코드를 사용하기 위한 특수 문자.
    이 포매팅 코드는 해당 위치에 값을 포맷하는 방식을 지정.

  • ','는
    천 단위마다 쉼표를 추가하는 포매팅 코드.

  • 주의:
    구분자 포맷팅은 salary 열의 값들에만 적용하고 있기 때문에
    저장할 때 전체 데이터프레임인 df가 아닌 해당 열인 df['salary']에 저장해야 함.

- 포맷팅을 .map()으로 적용하는 방법

  • 그러나 apply()와 달리 map()은 시리즈 데이터에서만 적용 가능.
  • apply()는 판다스 DataFrame 객체의 메서드, map()은 파이썬 내장 자료형.
df['salary'].map('{:,}'.format)

- 만약 함수를 적용할 경우

df['salary'].apply(lambda x: "{:,}".format(int(x))) 

csv파일로 저장하기

df.to_csv('my_data_save.csv')

본 후기는 정보통신산업진흥원(NIPA)에서 주관하는 <AI 서비스 완성! AI+웹개발 취업캠프 - 프론트엔드&백엔드> 과정 학습/프로젝트/과제 기록으로 작성 되었습니다.

profile
유후랄라 개발일기

1개의 댓글

comment-user-thumbnail
2023년 8월 2일

감사합니다. 이런 정보를 나눠주셔서 좋아요.

답글 달기