배열은 가까이에~ 기본 통계 데이터를 계산해 볼까?
끝판왕 등장! NumPy로 이 모든 걸 한방에!
데이터의 행렬 변환
구조화된 데이터란?
구조화된 데이터와 Pandas
Pandas와 함께 EDA 시작하기
평균 계산 하기 위한 알고리즘
평균은 숫자들의 합을 총 숫자의 개수로 나눈 값
total
, 숫자의 개수는 count
로 변수명을 정하고 0으로 초깃값을 할당사용자가 입력하는 숫자는 input
함수를 사용해 받기, 숫자를 입력하지 않으면 종료
while 문으로 조건 지정 반복문을 설정
input
함수에서 받은 값이 ""이 되면 False
→ while 문을 빠져나오게 코딩while 문의 조건이 True
면 count
와 total
이 갱신
total
에는 input
으로 받은 숫자를 더하기input
함수가 return하는 값의 자료형은 문자열 str
이니 float
로 맏드시 타입 변환혹시라도 사용자가 숫자가 아닌 엉뚱한 문자열을 입력하면 어떻게 할까요?
# 1
total = 0
count = 0
# 2
numbers = input("Enter a number : (<Enter Key> to quit)")
# 3
while numbers != "":
# 5
try:
# 4
x = float(numbers)
count += 1
total = total + x
except ValueError:
print('NOT a number! Ignored..')
numbers = input("Enter a number : (<Enter Key> to quit)")
avg = total / count
print("\n average is", avg)
<실행코드>
# 2개 이상의 숫자를 입력받아 리스트에 저장하는 함수
def numbers():
X=[] # X에 빈 리스트를 할당합니다.
while True:
number = input("Enter a number (<Enter key> to quit)")
while number != "":
try:
x = float(number)
X.append(x) # float형으로 변환한 숫자 입력을 리스트에 추가합니다.
except ValueError:
print('>>> NOT a number! Ignored..')
number = input("Enter a number (<Enter key> to quit)")
if len(X) > 1: # 저장된 숫자가 2개 이상일 때만 리턴합니다.
return X
X = numbers()
print('X :', X)
✨ 동적 배열(Dynamic Array) : 임의의 데이터 타입을 담을 수 있는 가변적 연속열(Sequence)형
import array as arr
mylist = [1, 2, 3] # 이것은 파이썬 built-in list입니다.
print(type(mylist))
mylist.append('4') # mylist의 끝에 character '4'를 추가합니다.
print(mylist)
mylist.insert(1, 5) # mylist의 두번째 자리에 5를 끼워넣습니다.
print(mylist)
myarray = arr.array('i', [1, 2, 3]) # 이것은 array입니다. import array를 해야 쓸 수 있습니다.
print(type(myarray))
# 아래 라인의 주석을 풀고 실행하면 에러가 납니다.
#myarray.append('4') # myarray의 끝에 character '4'를 추가합니다.
print(myarray)
myarray.insert(1, 5) # myarray의 두번째 자리에 5를 끼워넣습니다.
print(myarray)
☀️ 파이썬에서는 List가 array보다 쓰기 편하다
total = 0.0
for i in range(len(X)):
total = total + X[i]
mean = total / len(X)
print('sum of X: ', total)
: 주어진 숫자를 크기 순서대로 배치할 때 가장 중앙에 위치하는 숫자
def median(nums): # nums : 리스트를 지정하는 매개변수
nums.sort() # sort()로 리스트를 순서대로 정렬
size = len(nums)
p = size // 2
if size % 2 == 0: # 리스트의 개수가 짝수일때
pr = p # 4번째 값
pl = p-1 # 3번째 값
mid= float((nums[pl]+nums[pr])/2)
else: # 리스트의 개수가 홀수일때
mid = nums[p]
return mid
print('X :', X)
median(X) # 매개변수의 값으로 X를 사용함
def means(nums):
total = 0.0
for i in range(len(nums)):
total = total + nums[i]
return total / len(nums)
means(X)
avg = means(X)
def std_dev(nums, avg):
texp = 0.0
for i in range(len(nums)):
texp = texp + (nums[i] - avg)**2 # 각 숫자와 평균값의 차이의 제곱을 계속 더한 후
return (texp/len(nums)) ** 0.5 # 그 총합을 숫자개수로 나눈 값의 제곱근을 리턴합니다.
std_dev(X,avg)
위에 구현한 코드를 순서대로 사용
< 함수로 구현된 코드>
med = median(X)
avg = means(X)
std = std_dev(X, avg)
print("당신이 입력한 숫자{}의 ".format(X))
print("중앙값은{}, 평균은{}, 표준편차는{}입니다.".format(med, avg, std))
<전체코드>
def numbers():
X=[]
while True:
number = input("Enter a number (<Enter key> to quit)")
while number !="":
try:
x = float(number)
X.append(x)
except ValueError:
print('>>> NOT a number! Ignored..')
number = input("Enter a number (<Enter key> to quit)")
if len(X) > 1:
return X
def median(nums):
nums.sort()
size = len(nums)
p = size // 2
if size % 2 == 0:
pr = p
pl = p-1
mid = float((nums[pl]+nums[pr])/2)
else:
mid = nums[p]
return mid
def means(nums):
total = 0.0
for i in range(len(nums)):
total = total + nums[i]
return total / len(nums)
def std_dev(nums, avg):
texp = 0.0
for i in range(len(nums)):
texp = texp + (nums[i] - avg) ** 2
return (texp/len(nums)) ** 0.5
def main():
X = numbers()
med = median(X)
avg = means(X)
std = std_dev(X, avg)
print("당신이 입력한 숫자{}의 ".format(X))
print("중앙값은{}, 평균은{}, 표준편차는{}입니다.".format(med, avg, std))
if __name__ == '__main__':
main()
ndarray
데이터 타입을 지원ndarray
만들기import numpy as np
# 아래 A와 B는 결과적으로 같은 ndarray 객체를 생성합니다.
A = np.arange(5)
B = np.array([0,1,2,3,4]) # 파이썬 리스트를 numpy ndarray로 변환
# 하지만 C는 좀 다를 것입니다.
C = np.array([0,1,2,3,'4']) # 하나의 원소만 문자열 -> 전체가 문자열로 변경
# D도 A, B와 같은 결과를 내겠지만, B의 방법을 권합니다.
D = np.ndarray((5,), np.int64, np.array([0,1,2,3,4]))
print(A)
print(type(A))
print("--------------------------")
print(B)
print(type(B))
print("--------------------------")
print(C)
print(type(C))
print("--------------------------")
print(D)
print(type(D))
<실행결과>
[0 1 2 3 4]
<class 'numpy.ndarray'>
--------------------------
[0 1 2 3 4]
<class 'numpy.ndarray'>
--------------------------
['0' '1' '2' '3' '4']
<class 'numpy.ndarray'>
--------------------------
[0 1 2 3 4]
<class 'numpy.ndarray'>
A, B, D는 동일
✋ numpy.ndarray는 데이터타입이 동일해야함 → 한 개의 문자열 있으면 모두 문자열로 변경
✋ numpy의 코드형태 : 변수명.명령어
A = np.arange(10).reshape(2, 5) # 길이 10의 1차원 행렬을 2X5 2차원 행렬로 바꿔봅니다.
print("행렬의 모양:", A.shape)
print("행렬의 축 개수:", A.ndim)
print("행렬 내 원소의 개수:", A.size)
<실행결과>
행렬의 모양: (2, 5)
행렬의 축 개수: 2
행렬 내 원소의 개수: 10
✋ 행렬의 모양과 원소의 개수가 맞지 않으면 에러
NumPy 라이브러리 내부의 자료형들은 파이썬 내장함수와 동일
: 헷갈리는 메서드 → dtype, type()
int(A)
print(A.dtype)
print(type(A))
print("-------------------------")
B = np.array([0, 1, 2, 3, 4, 5])
print(B)
print(B.dtype)
print(type(B))
print("-------------------------")
C = np.array([0, 1, 2, 3, '4', 5])
print(C)
print(C.dtype)
print(type(C))
print("-------------------------")
# dtype을 명시햐면 warring 메세지가 생성되지 않음
D = np.array([0, 1, 2, 3, [4, 5], 6], dtype=object)
print(D)
print(D.dtype)
print(type(D))
# 단위행렬
np.eye(3)
<실행결과>
array([[1., 0., 0.],
[0., 1., 0.],
[0., 0., 1.]])
# 0 행렬
np.zeros([2,3])
<실행결과>
array([[0., 0., 0.],
[0., 0., 0.]])
# 1행렬
np.ones([3,3])
<실행결과>
array([[1., 1., 1.],
[1., 1., 1.],
[1., 1., 1.]])
: ndarray와 상수, 또는 서로 크기가 다른 ndarray끼리 산술연산이 가능한 기능
: 원소끼리 연산
A = np.arange(9).reshape(3,3)
A
<실행결과>
array([[0, 1, 2],
[3, 4, 5],
[6, 7, 8]])
# ndarray A에 2를 상수배 했을 때,
A * 2
<실행결과>
array([[ 0, 2, 4],
[ 6, 8, 10],
[12, 14, 16]])
# 3 X 3 행렬에 1 X 3 행렬을 더했을 때
A = np.arange(9).reshape(3,3)
B = np.array([1, 2, 3])
print("A:", A)
print("B:", B)
print("\nA+B:", A+B)
<실행결과>
A: [[0 1 2]
[3 4 5]
[6 7 8]]
B: [1 2 3]
A+B: [[ 1 3 5]
[ 4 6 8]
[ 7 9 11]]
: 파이썬 내장 리스트와 비슷한 슬라이스와 인덱싱 연산을 제공
# 3 X 3 행렬의 첫번째 행을 구해 봅시다.
A = np.arange(9).reshape(3,3)
print("A:", A)
B = A[0]
print("B:", B)
<실행결과>
A: [[0 1 2]
[3 4 5]
[6 7 8]]
B: [0 1 2]
# 0, 1을 인덱싱 하면 A의 첫번째 행에서 두번째 값을 참조합니다.
# 아래 두 결과는 정확히 같습니다.
print(A[0, 1])
print(B[1])
<실행결과>
1
1
# 슬라이싱도 비슷합니다.
A[:-1]
<실행결과>
array([[0, 1, 2],
[3, 4, 5]])
# 이 슬라이싱의 결과는
print(A[:,2:]) # print(A[:,-1:]) 같은의미
<실행결과>
[[2]
[5]
[8]]
print(A[:,1:]) # print(A[:,-2:])
<실행결과>
[[1 2]
[4 5]
[7 8]]
print(A[:,:]) # print(A[:,-3:])
<실행결과>
[[0 1 2]
[3 4 5]
[6 7 8]]
✋[행 , 열] → 행의 내부(시작 : 종착), 열의 내부(시작 : 종착)
**전체선택 → : (수는 적지 않고 클론만)**
**단독선택 : 행 → [인덱스번호] 열 → [ : , 인덱스번호]**
: 난수 지원 , np.random 패키지
# 0에서 1사이의 실수형 난수 하나를 생성합니다.
print(np.random.random())
-> 0.2523880029246135
# 0~9 사이 1개 정수형 난수 하나를 생성합니다.
print(np.random.randint(0,10))
-> 8
# 리스트에 주어진 값 중 하나를 랜덤하게 골라줍니다.
print(np.random.choice([0,1,2,3,4,5,6,7,8,9]))
-> 3
# 무작위로 섞인 배열을 만들어 줍니다.
# 아래 2가지는 기능면에서 동일합니다.
print(np.random.permutation(10))
-> [8 2 3 4 6 5 7 1 9 0]
print(np.random.permutation([0,1,2,3,4,5,6,7,8,9]))
-> [8 3 9 6 0 7 5 4 1 2]
# 어떤 분포를 따르는 변수를 임의로 표본추출
# 정규분포
# 평균(loc), 표준편차(scale), 추출개수(size)
print(np.random.normal(loc=0, scale=1, size=5))
-> [-1.17108058 -0.25100672 -0.11313579 3.75621283 -0.48516592]
# 균등분포
# 최소(low), 최대(high), 추출개수(size)
print(np.random.uniform(low=-1, high=1, size=5))
-> [ 0.57023623 -0.53225445 0.51310595 -0.85032188 -0.77446376]
: 행, 열의 위치 바꾸기 : 배열명.T, 배열명.transpose()
A = np.arange(24).reshape(2,3,4)
# A는 (2,3,4)의 shape를 가진 행렬
print("A:", A)
print("A의 전치행렬:", A.T)
# A의 전치행렬은 (4,3,2)의 shape를 가진 행렬
print("A의 전치행렬의 shape:", A.T.shape)
A:
[[[ 0 1 2 3]
[ 4 5 6 7]
[ 8 9 10 11]]
[[12 13 14 15]
[16 17 18 19]
[20 21 22 23]]]
A의 전치행렬:
[[[ 0 12]
[ 4 16]
[ 8 20]]
[[ 1 13]
[ 5 17]
[ 9 21]]
B = np.transpose(A, (2,0,1))
# A는 (2,3,4)의 shape를 가진 행렬
print("A:", A)
# B는 A의 3, 1, 2번째 축을 자신의 1, 2, 3번째 축으로 가진 행렬
print("B:", B)
# B는 (4,2,3)의 shape를 가진 행렬
print("B.shape:", B.shape)
<실행결과>
A:
[[[ 0 1 2 3]
[ 4 5 6 7]
[ 8 9 10 11]]
[[12 13 14 15]
[16 17 18 19]
[20 21 22 23]]]
B:
[[[ 0 4 8]
[12 16 20]]
[[ 1 5 9]
[13 17 21]]
[[ 2 6 10]
[14 18 22]]
[[ 3 7 11]
[15 19 23]]]
B.shape: (4, 2, 3)
: NumPy에서 제공하는 함수들을 이용해서 위에서 계산한 평균, 표준편차, 중앙값을 계산
import numpy as np
def numbers():
X = []
number = input("Enter a number (<Enter key> to quit)")
# 하지만 2개 이상의 숫자를 받아야 한다는 제약조건을 제외하였습니다.
while number != "":
try:
x = float(number)
X.append(x)
except ValueError:
print('>>> NOT a number! Ignored..')
number = input("Enter a number (<Enter key> to quit)")
return X
def main():
nums = numbers() # 이것은 파이썬 리스트입니다.
num = np.array(nums) # 리스트를 Numpy ndarray로 변환합니다.
print("합", num.sum())
print("평균값",num.mean())
print("표준편차",num.std())
print("중앙값",np.median(num)) # num.median() 이 아님에 유의해 주세요.
main()
Enter a number (<Enter key> to quit) 10
Enter a number (<Enter key> to quit) 20
Enter a number (<Enter key> to quit) 30
Enter a number (<Enter key> to quit) 40
Enter a number (<Enter key> to quit) 50
Enter a number (<Enter key> to quit)
합 150.0
평균값 30.0
표준편차 14.142135623730951
중앙값 30.0
소리 데이터의 경우 NumPy로 어떻게 표현하나요?
예시답안
1차원 array로 표현한다. CD음원파일의 경우, 44.1kHz의 샘플링 레이트로 -32767 ~ 32768의 정수 값을 갖는다.
흑백 이미지의 경우 NumPy로 어떻게 표현 하나요?
예시답안
이미지 사이즈의 세로X 가로 형태의 행렬(2차원 ndarray)로 나타내고, 각 원소는 픽셀별로 명도(grayscale)를 0~255 의 숫자로 환산하여 표시한다. 0은 검정, 255는 흰색이다.
컬러 이미지의 경우 NumPy로 어떻게 표현 하나요?
예시답안
이미지 사이즈의 세로 X 가로x3 형태의 3차원 행렬이다. 3은 Red, Green, Blue계열의 3 색을 의미한다.
Q4. 자연어(블로그에서는 Language로 표기)의 경우 NumPy로 어떻게 표현 하나요?
예시답안
임베딩(Embedding)이라는 과정을 거쳐 ndarray로 표현될 수 있다. 블로그의 예시에서는 71,290개의 단어가 들어있는 (문장들로 이루어진) 데이터셋이 있을때, 이를 단어별로 나누고 0 - 71,289로 넘버링했다. 이를 토큰화 과정이라고 한다. 이 토큰을 50차원의 word2vec embedding 을 통해 [batch_size, sequence_length, embedding_size]의 ndarray로 표현할 수 있다.
1) 디지털로 표현되는 이미지는 수많은 점(픽셀)으로 구성
2) 필셀의 변화에 따른 이미지의 해상도
[https://en.wikipedia.org/wiki/Image_resolution](https://en.wikipedia.org/wiki/Image_resolution)
3) 이미지와 픽셀의 관계에 관한 기본적인 사실만 나열
import matplotlib as mpl
import PIL
print( f'# matplotlib: {mpl.__version__}' )
print(f'# PIL: {PIL.__version__}')
<실행결과>
# matplotlib: 3.4.3
# PIL: 8.3.2
1) 이미지 조작에 쓰이는 메서드
Image.open()
Image.size
Image.filename
Image.crop((x0, y0, xt, yt))
Image.resize((w,h))
Image.save()
2) open
Cloud Shell
에서 ~/aiffel/data_represent/image
디렉터리에 이미지가 준비$ mkdir -p ~/aiffel/data_represent/image
$ ln -s ~/data/newyork.jpg ~/aiffel/data_represent/image
from PIL import Image, ImageColor
import os
img_path = os.getenv("HOME") + "/aiffel/data_represent/image/newyork.jpg"
img = Image.open(img_path)
print(img_path)
print(type(img))
img
<실행결과>
/aiffel/aiffel/data_represent/image/newyork.jpg
<class 'PIL.JpegImagePlugin.JpegImageFile'>
W, H = img.size
print((W, H))
<실행결과>
(212, 300) #가로X세로가 각각 튜플 값으로 반환
print(img.format)
print(img.size)
print(img.mode)
<실행결과>
JPEG
(212, 300)
RGB
: .crop()
메서드를 이용, 인자로 튜플값, 가로 세로의 시작점과 가로, 세로의 종료점 총 4개를 입력
img.crop((30,30,100,100))
: .save()
메서드를 사용하고, 매개변수로 파일 이름을 넣어 줍니다.
# 새로운 이미지 파일명
cropped_img_path = os.getenv("HOME") + "/aiffel/data_represent/image/cropped_img.jpg"
img.crop((30,30,100,100)).save(cropped_img_path)
print("저장 완료!")
<저장경로확인>
!ls ~/aiffel/data_represent/image/cropped_img.jpg
<실행결과?
/aiffel/aiffel/data_represent/image/cropped_img.jpg
: Pillow 라이브러리는 손쉽게 이미지를 Numpy ndarray로 변환 가능
import numpy as np
img_arr = np.array(img)
print(type(img))
print(type(img_arr))
print(img_arr.shape)
print(img_arr.ndim)
<실행결과>
<class 'PIL.JpegImagePlugin.JpegImageFile'>
<class 'numpy.ndarray'>
(300, 212, 3)
3
: Image.open().convert('L')
로 모드를 이용하면 흑백모드로 open
img_g = Image.open(img_path).convert('L')
img_g
# 행렬로 변환
img_g_arr = np.array(img_g)
print(type(img_g_arr))
print(img_g_arr.shape)
print(img_g_arr.ndim)
<실행결과>
<class 'numpy.ndarray'>
(300, 212)
2
: getcolor()
는 각 색상이 RGB 값으로 어떻게 표현되는지를 반환
red = ImageColor.getcolor('RED','RGB')
reda = ImageColor.getcolor('red','RGBA')
yellow = ImageColor.getcolor('yellow','RGB')
print(red)
print(reda)
print(yellow)
<실행결과>
(255, 0, 0)
(255, 0, 0, 255)
(255, 255, 0)
📌 Data augmentation : 딥러닝에서 데이터의 개수를 늘릴 때 사용되는 기법
{}
를 이용하고 키 : 값
의 형태# 파이썬 dict 로 표현한 전화번호부입니다.
Country_PhoneNumber = {'Korea': 82, 'America': 1, 'Swiss': 41, 'Italy': 39, 'Japan': 81, 'China': 86, 'Rusia': 7}
# 키를 가지고 값을 조회
Country_PhoneNumber['Korea']
<실행결과>
82
1) 보물상자 딕셔너리로 만들기, 물품을 보여주는 함수
# 보물상자 물품 딕셔너리 만들기
treasure_box = {'rope':2,
'apple':10,
'torch': 6,
'gold coin': 50,
'knife': 1,
'arrow': 30}
# 딕셔너리 물품을 for문을 이용해 출력 - 딕셔너리명.items()이용
# 딕셔너리명.items() - key, value 반환 - ()이기 때문에 튜플반환
def display_stuff(treasure_box):
print("Congraturation!! you got a treasure box")
for k, v in treasure_box.items():
print("you have {} {}pcs".format(k, v))
# 함수 호출
display_stuff(treasure_box)
<실행결과>
Congraturation!! you got a treasure box
you have rope 2pcs
you have apple 10pcs
you have torch 6pcs
you have gold coin 50pcs
you have knife 1pcs
you have arrow 30pcs
2) 물품을 통해 얻을 은화를 보여주는 함수
# 물뭎 개당 은화 수
coin_per_treasure = {'rope':1,
'apple':2,
'torch': 2,
'gold coin': 5,
'knife': 30,
'arrow': 1}
# 함수 정의
def total_silver(treasure_box, coin_per_treasure):
total_coin = 0
for treasure in treasure_box:
coin = coin_per_treasure[treasure] * treasure_box[treasure]
print("{} : {}coins/pcs * {}pcs = {} coins".format(
treasure, coin_per_treasure[treasure], treasure_box[treasure], coin))
total_coin += coin
print('total_coin : ', total_coin)
total_silver(treasure_box, coin_per_treasure)
➡️ 보물 상자 안의 물품과 개수와 은화를 각각의 딕셔너리 형태로 저장하고, 동일한 단어를 키로 사용해서 각각의 데이터 값을 매칭
3) 딕셔너리의 딕셔너리 : 데이터를 하나의 변수에 저장
treasure_box = {'rope': {'coin': 1, 'pcs': 2},
'apple': {'coin': 2, 'pcs': 10},
'torch': {'coin': 2, 'pcs': 6},
'gold coin': {'coin': 5, 'pcs': 50},
'knife': {'coin': 30, 'pcs': 1},
'arrow': {'coin': 1, 'pcs': 30}
}
treasure_box['rope']
<실행결과>
{'coin': 1, 'pcs': 2}
📌 for문을 이용해 딕셔너리 key, value 구하기
treasure_box = {'rope':2,
'apple':10,
'torch': 6,
'gold coin': 50,
'knife': 1,
'arrow': 30}
# i는 key값, 딕셔너리[i]는 value
for i in treasure_box:
print(i, treasure_box[i])
<실행결과>
rope 2
apple 10
torch 6
gold coin 50
knife 1
arrow 30
📌 list for문을 이용한 값 출력
lst = ['H', 'e', 'l', 'l', 'o']
for i in lst:
print(i, end="")
<실행결과>
Hello
📌 for ~ in문
pandas라는 파이썬 라이브러리는 Series와 DataFrame이라는 자료 구조를 제공해요. 이 데이터 타입을 활용하면 구조화된 데이터를 더 쉽게 다룰 수 있습니다.
pandas의 특징
pandas pip을 이용해서 설치
1) 1차원 배열과 비슷한 자료 구조
import pandas as pd
ser = pd.Series(['a','b','c',3])
ser
<실행결과>
0 a
1 b
2 c
3 3
dtype: object
2) Series의 인덱스(Index)
index
와 value
가 존재index
는 순서를 나타낸 숫자, value
는 배열로 표현된 실제 데이터의 값Series
객체의 values
를 호출 → array
형태로 반환
ser.values
<실행결과>
array(['a', 'b', 'c', 3], dtype=object)
인덱스는 RangeIndex
(정수형 인덱스)가 반환
ser.index
<실행결과>
RangeIndex(start=0, stop=4, step=1)
3) 인덱스 설정 : Series의 인자로 넣어주는 방법
ser2 = pd.Series(['a', 'b', 'c', 3], index=['i','j','k','h'])
ser2
<실행결과>
i a
j b
k c
h 3
dtype: object
ser2.index = ['Jhon', 'Steve', 'Jack', 'Bob']
ser2
<실행결과>
Jhon a
Steve b
Jack c
Bob 3
dtype: object
ser2.index
<실행결과>
Index(['Jhon', 'Steve', 'Jack', 'Bob'], dtype='object')
Series
객체로 생성 : 딕셔너리의 키가 인덱스로 설정Country_PhoneNumber = {'Korea': 82, 'America': 1, 'Swiss': 41, 'Italy': 39, 'Japan': 81, 'China': 86, 'Rusia': 7}
ser3 = pd.Series(Country_PhoneNumber)
ser3
<실행결과>
Korea 82
America 1
Swiss 41
Italy 39
Japan 81
China 86
Rusia 7
dtype: int64
📌 파이썬 딕셔너리를 사용해 생성한 Series에서는 딕셔너리의 키가 인덱스로 설정
값이 할당된 인덱스 형태에 대해서 슬라이싱(slicing) 기능을 지원
ser3['Korea']
<실행결과>
82
ser3['Italy':]
<실행결과>
Italy 39
Japan 81
China 86
Rusia 7
dtype: int64
4) Series의 Name
Series
객체의 name
속성을 이용해서 Series
객체의 이름을 설정Series
인덱스의 name
속성을 이용해 인덱스 이름을 설정ser3.name = 'Country_PhoneNumber'
ser3.index.name = 'Country_Name'
ser3
<실행결과>
Country_Name
Korea 82
America 1
Swiss 41
Italy 39
Japan 81
China 86
Rusia 7
Name: Country_PhoneNumber, dtype: int64
1) 딕셔너리를 Series로 변환
data = {'Region' : ['Korea', 'America', 'Chaina', 'Canada', 'Italy'],
'Sales' : [300, 200, 500, 150, 50],
'Amount' : [90, 80, 100, 30, 10],
'Employee' : [20, 10, 30, 5, 3]
}
s = pd.Series(data)
s
<실행결과>
Region [Korea, America, Chaina, Canada, Italy]
Sales [300, 200, 500, 150, 50]
Amount [90, 80, 100, 30, 10]
Employee [20, 10, 30, 5, 3]
dtype: object
2) 딕셔너리를 DataFrame으로 변환
d = pd.DataFrame(data)
d
<실행결과>
3) Index와 Column Index도 설정 가능 → Series의 name == DataFrame의 Column 명
d.index=['one','two','three','four','five']
d.columns = ['a','b','c','d']
d
<실행결과>
4) 구조화된 데이터의 표현법
EDA(Exploratory Data Analysis) - 데이터를 탐색
✋ Pandas 라이브러리는 수학 메서드와 통계 메서드 제공
1) 데이터 준비하기
$ mkdir -p ~/aiffel/data_represent/data
$ ln -s ~/data/covid19_italy_region.csv ~/aiffel/data_represent/data
2) CSV 파일 읽기
type()
으로 확인해 보면 자료형은 DataFrameimport pandas as pd
import os
csv_path = os.getenv("HOME") + "/aiffel/data_represent/data/covid19_italy_region.csv"
data = pd.read_csv(csv_path)
type(data)
<실행결과>
pandas.core.frame.DataFrame
3) 데이터의 출력
data
<실행결과>
데이터 프레임 구조로 전체 데이터 출력
data.head() # 데이터셋의 처음 5개 출력
data.tail() # 데이터셋의 마지막 5개 출력
data.columns # **컬럼명을 확인
<실행결과>**
Index(['SNo', 'Date', 'Country', 'RegionCode', 'RegionName', 'Latitude',
'Longitude', 'HospitalizedPatients', 'IntensiveCarePatients',
'TotalHospitalizedPatients', 'HomeConfinement', 'CurrentPositiveCases',
'NewPositiveCases', 'Recovered', 'Deaths', 'TotalPositiveCases',
'TestsPerformed'],
dtype='object')
data.info() # Null값과 자료형 출력
<실행결과>
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 798 entries, 0 to 797
Data columns (total 17 columns):
# Column Non-Null Count Dtype
--- ------ -------------- -----
0 SNo 798 non-null int64
1 Date 798 non-null object
2 Country 798 non-null object
3 RegionCode 798 non-null int64
4 RegionName 798 non-null object
5 Latitude 798 non-null float64
6 Longitude 798 non-null float64
7 HospitalizedPatients 798 non-null int64
8 IntensiveCarePatients 798 non-null int64
9 TotalHospitalizedPatients 798 non-null int64
10 HomeConfinement 798 non-null int64
11 CurrentPositiveCases 798 non-null int64
12 NewPositiveCases 798 non-null int64
13 Recovered 798 non-null int64
14 Deaths 798 non-null int64
15 TotalPositiveCases 798 non-null int64
16 TestsPerformed 798 non-null int64
dtypes: float64(2), int64(12), object(3)
memory usage: 106.1+ KB
data.describe() # 개수, 평균, 표준편차, 최솟값, 4분위수, 최댓값 출력
<실행결과>
data.isnull().sum() # 결측치를 더한 값 출력
<실행결과>
SNo 0
Date 0
Country 0
RegionCode 0
RegionName 0
Latitude 0
Longitude 0
HospitalizedPatients 0
IntensiveCarePatients 0
TotalHospitalizedPatients 0
HomeConfinement 0
CurrentPositiveCases 0
NewPositiveCases 0
Recovered 0
Deaths 0
TotalPositiveCases 0
TestsPerformed 0
dtype: int64
4) EDA - 통계
# 범주 컬럼 개수 구하기
data['RegionName'].value_counts()
# 범주형 컬럼 총합 구히기
data['RegionName'].value_counts().sum()
# 수치형 총합구하기
print("총 감염자", data['TotalPositiveCases'].sum())
# 각 컬럼별 총합 구히기
data.sum()
# 2개 컬럼의 상관관계
print(data['TestsPerformed'].corr(data['TotalPositiveCases']))
# 전체 컬럼 상관관계
data.corr()
# 컬럼 지우기
data.drop(['Latitude','Longitude','Country','Date','HospitalizedPatients', 'IntensiveCarePatients', 'TotalHospitalizedPatients','HomeConfinement','RegionCode','SNo'], axis=1, inplace=True)
5) pandas 통계 관련 메서드
count()
: NA를 제외한 수를 반환describe()
: 요약 통계를 계산min(), max()
: 최소, 최댓값을 계산sum()
: 합을 계산mean()
: 평균을 계산median()
: 중앙값을 계산var()
: 분산을 계산std()
: 표준편차를 계산argmin()
, argmax()
: 최소, 최댓값을 가지고 있는 값을 반환idxmin()
, idxmax()
: 최소, 최댓값을 가지고 있는 인덱스를 반환cumsum()
: 누적 합을 계산pct_change()
: 퍼센트 변화율을 계산