파이썬 데이터분석 1주차

Lina Lee·2021년 5월 1일
0

기본 구축환경

Jupiter Notebook(Anaconda), Python3, Pandas, Matpotlib

장점

다량의 빅데이터 분석이 가능(엑셀에서 다루기 어려운 용량의 파일 분석), 세밀한 시각화 가능, 다양한 패키지 툴 사용 가능

기초 데이터 다루기

라이브러리 불러오기(import)

import pandas as pd
import matplotlib.pyplot as plt

파일 불러오기

pd.read_csv('파일의경로+파일의이름'

데이터 전처리

데이터를 처음 접하고 확인해야할 것

  • 몇개의 열들로 이루어져 있나요?
  • 각각의 열들은 어떤 데이터들이 들어있나요?
  • 성별, 종목, 성공여부와 같은 데이터 인가요?
  • 횟수, 갯수와 같은 데이터 인가요?
  • 시간과 같이 연속된 데이터 인가요?
  • 몇개의 행으로 이루어져 있나요?

사용코드

마지막 5개 보기
데이터명.tail(5)
기초통계 보기
데이터명 .describe()

성별 데이터 교집합, 데이터 수 확인
gender_range = set(chicken07['성별'])
print(gender_range, len(gender_range))

데이터 합치기
chicken_data = pd.concat([chicken07, chicken08, chicken09])

인텍스 재설정
chicken_data = chicken_data.reset_index(drop=True)

교차분석

A요인(X축) 기준 B요인(Y축) 데이터 보기
sumof_calls_by__week = chicken_data.groupby('요일')['통화건수'].sum()

  • 체이닝(Chaining)
    요일 별로 모아주기
    groupdata = chicken_data.groupby('요일')
    '통화건수' 열만 떼어보기
    call_data = groupdata['통화건수']
    요일 별로 더해주기
    sumof_calls_by_week = _call_data.sum()

오름차순 정렬
sortedsum_of_calls_by__week = sum_of_calls_by_week.sort_values(ascending=True)

그래프 그리기
plt.figure(figsize=(8,5)) # 그래프의 사이즈
plt.bar(sum_of_calls_by_week.index, sum_of_calls_by_week) # bar 그래프에 x축, y축 값을 넣어줍니다.
plt.xlabel('서울 소재 구') # X축명 설정
plt.xticks(rotation = 45) # X축 요인명 기울여서 노출
plt.title('요일에 따른 치킨 주문량 합계') # 그래프의 제목
plt.show()

  • 그 외 그래프 활용
    2개의 그래프(그래프 위에 그래프)
    plt.bar(chicken_data.index, chicken_data) # 바 그래프
    plt.bar(pizza_data.index, pizza_data)
    line 차트
    plt.plot()

한글설정

print('설정 되어 있는 폰트 사이즈 :', plt.rcParams['font.size'])
print('설정 되어 있는 폰트 글꼴 :', plt.rcParams['font.family'])

plt.rcParams['font.family'] = "Malgun Gothic"
Apple은 'AppleGothic', Windows는 'Malgun Gothic'을 추천

0개의 댓글