파일 처리

XTHK·2025년 3월 19일

Anaysis

목록 보기
3/23

경로 내 파일 확인

import os

os.listdir()

파일 병합

pd.concat([df1, df2], ignore_index = True)
  • df1, df2을 concat (행 기준으로 이어붙임) -> 컬럼이 같은 것끼리 아래로 붙여짐
  • 열 기준으로 붙일 때에는, (..., axis=1) -> 옆으로 붙여짐
  • ignore_index : 병합되면서 인덱스가 틀어지는 것 방지
    • 기존 : 1,2,3,4, ... , 1,2,3,4, ...
    • True로 설정 : 1,2,3,4,5,6,7,8, ...

특정 컬럼 제외할 때

df_concat.drop(columns = 'Unnamed: 0', inplace = True)
  • drop(columns = 'Unnamed: 0')
  • 제거할 컬럼 여러 개일 땐 : {'Unnamed: 0', ... }

파일 호출 시 행 건너뛰기

df1 = pd.read_csv('~~.csv')
  • n개의 행을 건너뛰고 싶은 경우 : skiprows
pd.read_csv('~~.csv', skiprows=2)
  • 또는 불러오고 나서 자르기
    • iloc : 인덱스번호 기준 슬라이싱
    • df1.iloc[2:]

특정 컬럼을 기준으로 테이블 편집 : melt

  • 기존에 컬럼이었던 사항들이 지정된 컬럼을 기준으로 variable, value 변수 내 값이 됨
    • 예) 지점별 값 따로
      • variable : 지점컬럼
      • value : 각 지점이 가지던 값으로
df3.melt(id_vars = df3.columns[:4]

rename

df3.rename(columns = {'variable' : '지점', 'value' : '판매량'})

컬럼 type 변경 : astype

df4['합계(int)'] = df4[' 합계'].astype(int)

기술통계량 확인 : describe

df4.describe()

idxmax / idxmin

  • 최대/최소값 조회
    • 컬럼들이 연속형이어야 함
  • 인덱스 설정되어 있을 시, 인덱스 값뿐만 아니라 내용도 출력
p2 = p1.set_index('지점')
p2.idxmax()

# 기간별 판매량 최대 지점
# 06월    (610)부천점
# 07월    (610)부천점
# 08월    (740)속초점
profile
Analyse the world

0개의 댓글