Python 데이터분석 - 1주차

김영민·2021년 10월 26일

파이썬 기초문법

1) 변수 & 기본연산

a = 3  # 3을 a에 넣는다
print(a)

b = a  # a를 b에 넣는다
print(b)

a = a + 1  # a+1을 다시 a에 넣는다
print(a)

num1 = a * b  # a*b의 값을 num1이라는 변수에 넣는다
print(num1)

num2 = 99  # 99의 값을 num2이라는 변수에 넣는다
print(num2)

2) 자료형

1. 숫자, 문자열, 참거짓

num = 12  # 숫자가 들어갈 수도 있고,
print(num)

name = 'Harry'  # 변수에는 문자열이 들어갈 수도 있고,
print(name)

number_status = True  # True 또는 False -> "Boole" 형이 들어갈 수도 있습니다.
print(number_status)

2. 리스트형

waiting_list = []  # 비어있는 리스트 만들기
waiting_list.append('이현호')  # 리스트에 문자열 데이터를 넣는다
print(waiting_list)

waiting_list.append('이범규')  # 리스트에 '이범규'라는 문자열을 하나 더 넣는다
print(waiting_list)

waiting_list.append(['고영희','황철수'])  # 리스트에는 또 다른 리스트가 추가될 수 있습니다
list_food

3. Dictionary 형

eng_kor_dict = {}  # 비어있는 딕셔너리 만들기

eng_kor_dict = {'apple': '사과', 'pear': '배'}
eng_kor_dict['apple']
#eng_kor_dict['사과']
#eng_kor_dict['banana']

# 딕셔너리에 추가하고 싶을 때
eng_kor_dict['banana'] = '바나나'
eng_kor_dict

4. set 형

group1 = set([1, 2, 3, 4, 2, 1])
group2 = set([1, 2, 3, 1, 6])
print(group1)       # {1, 2, 3, 4}
print(group2)       # {1, 2, 3, 6}

# 교집합
print(group1 & group2) # {1, 2, 3}

# 합집합
print(group1 | group2) # {1, 2, 3, 4, 6}

리스트에 있는 데이터에 접근할 때 list_name[0] 와 같은 방법으로 접근합니다.
딕셔너레이 있는 데이터에 접근할 때는 dictionary_name["키값"] 의 방법을 이용합니다. 셋은 리스트를 ()로 감싸주어 사용합니다.

3) 조건문

age = 20

if age >= 20:
    print('성인입니다')  # 조건이 참이면 성인입니다를 출력
else:
    print('청소년이에요')  # 조건이 거짓이면 청소년이에요를 출력

# age = 17 로 하면 무엇이 출력될까요?

# 조건을 여러 개 사용하고 싶을 때
age = 65

if age > 80:
    print('아직 정정하시군요')
elif age > 60:
    print('인생은 60부터!')
else:
    print('아직어려요!')

# age = 20 하면 무엇이 출력될까요?

4) 반복문

fruits = ['사과', '배', '감', '귤']

for fruit in fruits:  # fruit 은 우리가 임의로 지어준 이름입니다.
    print(fruit)  # 사과, 배, 감, 귤 하나씩 꺼내어 출력합니다.

fruits = ['사과', '배', '배', '감', '수박', '귤', '딸기', '사과', '배', '수박']

count = 0
for fruit in fruits:
    if fruit == '사과':
        count = count + 1

# 사과의 갯수를 출력합니다.
print(count)

5) 함수

def sum(a, b):
	return a + b

print(sum(3,5))

def print_name(name):
	print("반갑습니다 "+name+" 님")

print_name("이현호)

리스트와 딕셔너리는 [ ]를 사용, 함수는 ( )를 사용하죠!

Pandas

파이썬에서 사용되는 데이터 분석 라이브러리 입니다. 관계형 데이터를 행과 열로 구성된 객체로 만들어 줍니다. 우리가 불러온 데이터를 다루기 쉽게 도와주는 도구입니다. 글로 읽어서는 잘 이해가 되지 않으니 실제로 써보면서 익혀봅시다.

1) 데이터 불러오기

import pandas as pd
chicken07 = pd.read_csv('./data/chicken_07.csv')

2) 데이터 살펴보기

day_range = set(chicken07['요일'])
print(day_range, len(day_range))
# {'일', '수', '금', '화', '목', '월', '토'} 7

city_range = set(chicken07['시군구'])
print(city_range, len(city_range))
# {'관악구', '광진구', '도봉구', ...} 25

town_range = set(chicken07['읍면동'])
print(town_range, len(town_range))
# {'시흥동', '창성동', '상계동', ...} 425

3) 데이터 합치기

chicken07 = pd.read_csv('./data/chicken_07.csv')
chicken08 = pd.read_csv('./data/chicken_08.csv')
chicken09 = pd.read_csv('./data/chicken_09.csv')

# 3분기 데이터
chicken_data = pd.concat([chicken07, chicken08, chicken09])
chicken_data

Matplotlib

파이썬에서 사용되는 시각화 라이브러리 입니다. 판다스가 관계형 데이터를 다루는데 사용된다면, Matplotlib은 그 데이터들을 시각화 하는데 사용합니다. 가장 기초가 되는 Matplotlib을 이용해서 바 차트들을 그려봅시다.

1) Matplotlib 불러오기

import pandas as pd
import matplotlib.pyplot as plt

2) Matplotlib 데이터 살펴보기

sum_of_calls_by_week = chicken_data.groupby('요일')['통화건수'].sum()
sum_of_calls_by_week

plt.figure(figsize=(8,5)) # 그래프의 사이즈
plt.bar(sum_of_calls_by_week.index, sum_of_calls_by_week) # bar 그래프에 x축, y축 값을 넣어줍니다.
plt.title('요일에 따른 치킨 주문량 합계') # 그래프의 제목
plt.show() # 그래프 그리기

1. 한글 설정하기

print('설정 되어 있는 폰트 사이즈 :', plt.rcParams['font.size'])
print('설정 되어 있는 폰트 글꼴 :', plt.rcParams['font.family'])

# Apple은 '**AppleGothic**', Windows는 '**Malgun Gothic**'을 추천
plt.rcParams['font.family'] = "Malgun Gothic"

2. 데이터 정렬하기

# 요일 별로 모아주기
groupdata = chicken_data.groupby('요일')
# '통화건수' 열만 떼어보기
call_data = groupdata['통화건수']
# 요일 별로 더해주기
sum_of_calls_by_week = call_data.sum()
sorted_sum_of_calls_by_week = sum_of_calls_by_week.**sort_values(ascending=True)**

plt.figure(figsize=(8,5)) # 그림의 사이즈
plt.bar(sorted_sum_of_calls_by_week.index, sorted_sum_of_calls_by_week) # 바 그래프
plt.title('요일에 따른 치킨 주문량 합계') # 그래프의 제목
plt.show() # 그래프 그리기

weeks = ['월', '화', '수', '목', '금', '토', '일'] # 우리가 정한 순서
sum_of_calls_by_weeks = chicken_data.groupby('요일')['통화건수'].sum().reindex(weeks) # 인덱스 다시 정렬

plt.figure(figsize=(8,5)) # 그림의 사이즈
plt.bar(sum_of_calls_by_weeks.index, sum_of_calls_by_weeks) # 바 그래프
plt.title('요일에 따른 치킨 주문량 합계') # 그래프의 제목
plt.show() # 그래프 그리기

3. 바 그래프 2개 그리기

plt.bar(chicken_data.index, chicken_data) # 바 그래프
plt.bar(pizza_data.index, pizza_data)

김영민

“Stay hungry, Stay foolish.”

이전 포스트

[스파르타코딩] 웹개발 종합반 - 5주차

다음 포스트

Python 데이터분석 - 1주차

파이썬 기초문법

1) 변수 & 기본연산

2) 자료형

1. 숫자, 문자열, 참거짓

2. 리스트형

3. Dictionary 형

4. set 형

3) 조건문

4) 반복문

5) 함수

Pandas

1) 데이터 불러오기

2) 데이터 살펴보기

3) 데이터 합치기

Matplotlib

1) Matplotlib 불러오기

2) Matplotlib 데이터 살펴보기

1. 한글 설정하기

2. 데이터 정렬하기

3. 바 그래프 2개 그리기

[스파르타코딩] 웹개발 종합반 - 5주차

Python 데이터분석 - 2주차

0개의 댓글