데이터 분석은 다음과 같은 절차를 따른다.
실제 데이터 사이언티드스들은 데이터 분석 단계 중 데이서 수집 및 가공(전처리)하는 과정에 80%이상이 비중을 둔다고 한다. 그만큼 중요하고 필수적인 과정이라는 뜻이다.
전체적인 과정을 머리속에 그려두고, 앞으로의 배움에 있어 어떤 과정을 진행하고 있는지 확인 할 필요가 있다.
자료출처 : 브런치
Python을 통해 불러오는 방법
import pandas as pd
# text, csv 파일을 불러오는 방법
df = pandas.read_csv('파일명.csv')
# excel 파일 불러오는 방법
df = pandas.read_excel('파일명.xlsx')
'''
✨기본적으로 csv파일은 comma로 데이터 값이 구분되기 때문에 구분자 설정이 필요없다.
하지만 comma가 아닌 다른것으로 구분자가 설정되어 있는 경우 데이터를 그냥 불러오면 오류가 생긴다.
이런 경우에는 sep='\t', sep='|' 와 같이 구분자롤 설정해야한다.
df = pandas.read_csv('파일명.csv', sep='\t')
'''
'''
✨불러오고자 하는 파일의 encoding이 python encoding과 맞지 않아도 오류가 발생한다.
이런 경우는 encoding='utf8' 혹은 encoding='cp949'를 설정해주면 된다.
'''
자주 사용하는 옵션