Data Analysis Process, 데이터 불러오기

sy_healing·2022년 4월 15일
0

Pandas 기초 -Data

목록 보기
1/6
post-custom-banner

💡Data Analysis Process

데이터 분석은 다음과 같은 절차를 따른다.
실제 데이터 사이언티드스들은 데이터 분석 단계 중 데이서 수집 및 가공(전처리)하는 과정에 80%이상이 비중을 둔다고 한다. 그만큼 중요하고 필수적인 과정이라는 뜻이다.

전체적인 과정을 머리속에 그려두고, 앞으로의 배움에 있어 어떤 과정을 진행하고 있는지 확인 할 필요가 있다.

자료출처 : 브런치


✍️ 데이터 불러오기

  • Description을 통해 데이터셋에 대한 정보를 파악한다.
    • 행과 열의 수
    • 열에 헤더가 있는지 ('데이터 이름'이 있는지)
    • 결측치가 있는지
    • 원본 데이터 형태 확인 (기대하던 형태가 아닐 수 있다)

Python을 통해 불러오는 방법

import pandas as pd

# text, csv 파일을 불러오는 방법
df = pandas.read_csv('파일명.csv')
# excel 파일 불러오는 방법
df = pandas.read_excel('파일명.xlsx')

'''
✨기본적으로 csv파일은 comma로 데이터 값이 구분되기 때문에 구분자 설정이 필요없다.
하지만 comma가 아닌 다른것으로 구분자가 설정되어 있는 경우 데이터를 그냥 불러오면 오류가 생긴다.
이런 경우에는  sep='\t', sep='|' 와 같이 구분자롤 설정해야한다.
df = pandas.read_csv('파일명.csv', sep='\t')
'''

'''
✨불러오고자 하는 파일의 encoding이 python encoding과 맞지 않아도 오류가 발생한다.
이런 경우는 encoding='utf8' 혹은 encoding='cp949'를 설정해주면 된다.
'''

자주 사용하는 옵션

pandas 공식문서

post-custom-banner

0개의 댓글