데이터 분석 TIL - 파일 불러오기/저장하기, 패키지 종류, 포맷팅

테리·2025년 10월 28일
post-thumbnail

1. 학습 키워드

파일 불러오기, 파일 저장하기, 패키지 종류, 포맷팅

2. 학습 내용

파일 불러오기

import pandas as pd
# 만약 탭으로 구분되어 있다면 delimiter='\t'를 사용.
pd.read_csv('file.txt', delimiter='\t')  

파일 저장하기

(csv, excel)과 json을 저장하는 방식이 다르다.

excel

df = pd.DataFrame(data)
excel_file_path = '/content/sample_data/data.xlsx'
df.to_excel(excel_file_path, index = False)

json

import json

data = {
    'Name': ['John', 'Emily', 'Michael'],
    'Age': [30, 25, 35],
    'City': ['New York', 'Los Angeles', 'Chicago']
}

json_file_path = '/content/sample_data/data.json'

# json 파일을 쓰기모드로 열어서 data를 거기에 덮어씌움.
# with를 안쓰면 json 파일을 연 뒤에 닫아주는 코드를 작성해야하는데 with는 해당 코드 실행이 끝나면 알아서 닫아줌.
with open(json_file_path, 'w') as jsonfile:
    json.dump(data, jsonfile, indent=4) # indent=4: 4칸 들여쓰기

print("JSON 파일이 생성되었습니다.")

패키지 종류

  • pandas: 데이터를 효과적으로 조작하고 분석할 수 있도록 도와줌
  • numpy: 다차원 배열과 행렬 연산을 지원함
  • matplotlib: 데이터 시각화를 위한 라이브러리
  • seaborn: matplotlib보다 조금 더 다채로운 시각화 지원
  • scikit-learn: 머신러닝 알고리즘을 사용할 수 있는 라이브러리
  • statsmodel: 통계 분석을 위한 라이브러리
    ex) import statsmodel.api as sm
  • scipy: 과학기술 및 수학적인 연산을 위한 라이브러리
  • tensorflow: 딥러닝을 위한 오픈소스 라이브러리(구글에서 개발)
  • pytorch: 딥러닝을 위한 오픈소스 라이브러리(메타에서 개발)

포맷팅

대표적인 방법: f-string

x = 10
print(f"변수 x의 값은 {x}입니다.")

잘 안쓰는 방법: 문자열 뒤에 점을 찍고 format() 함수 사용.

x= 10
print("변수 x의 값은 {}입니다.".format(x))

name= '철수'
age= 10
print("이름: {}, 나이: {}세".format(name, age))

3. 배운점

  1. json 파일을 불러오는건 자주 해봤지만 막상 저장해본적은 없었던 것 같다. json은 파일을 열고 dump()를 통해서 저장한다는 것을 알게됨.

0개의 댓글