✏️ 24.12.18 TIL

Dada·2024년 12월 18일

📅 TO DO


  • 데이터 전처리 & 시각화 4주차 수강
  • 데이터 시각화 실습
  • Pandas 라이브세션 수강

📝 MEMO


▶ 데이터 전처리 & 시각화 4주차
▶ 데이터 시각화 실습

▶ Pandas 라이브 세션

1. Pandas의 자료 구조

  • 데이터프레임
    • 2차원의 데이터 구조
    • index: 각 아이템을 특정할 수 있는 고유값
    • 행(row), 열(column)으로 구성
    • 각 열은 각각 데이터타입(dtype)을 가짐
  • 시리즈
    • 데이터를 담는 차원 배열 구조를 가짐
      → 데이터 프레임의 컬럼 하나
    • 인덱스(index) + value
    • 데이터타입을 가짐

2. rename

  • 컬럼명을 딕셔너리 형태로 입력하여 컬럼명 변경
  • inplaceTrue로 지정할 경우 원본 데이터의 컬럼명을 바로 변경할 수 있음
# df의 'org_name' 컬럼명 교체
df.rename(columns = {'org_name': 'new_name'}, inplace = True)

3. DataFrame.keys()

  • keys 메서드는 info axis(정보축) 값을 가져옴
  • 정보축 - Series에서는 index, DataFrame에서는 열 의미
  • Excel 파일의 경우 모든 시트명 조회 가능
df.keys()

4. 데이터 확인

  • 데이터 형태 확인 : shape
df.shape
# 출력 : (행 개수, 열 개수)
  • 데이터 타입 확인 : dtypes
df.dtype
  • 컬럼 확인 : columns
df.columns
  • Null값 확인: isnull / isna

5. 데이터 병합

  • concat
    • axis=1 : 열 방향 - 좌, 우로 합치기
    • axis=0 : 행 방향 - 위, 아래로 합치기
    • ignore_index : 기존 인덱스를 무시할 것인지 여부
pd.concat([df1, df2, df2, axis = 0, ignore_index = True])
  • merge
    • SQL의 JOIN과 유사함
    • how: 데이터를 어떻게 합칠 것인지
      left, right, outer, inner, cross
      → 기본값은 inner
    • on: 데이터를 합칠 때 기준으로 잡을 컬럼
pd.merge(df1, df2, how = "inner", on = "column_name")

6. 데이터 저장

  • to_csv : csv 파일로 저장
# 한글깨짐 현상 방지: encoding = "UTF-8-SIG"
df.to_csv("filename", encoding = "UTF-8-SIG", index = True)
  • to_excel : excel 파일로 저장
df.to_excel("filename", index = True)

0개의 댓글