240626 TIL #435 Numpy - 1

김춘복·2024년 6월 25일

TIL python

TIL : Today I Learned

목록 보기

435/543

Today I Learned

오늘은 파이썬의 계산용 패키지인 Numpy에 대해 공부해보았다.

Numpy

Numerical Python. 파이썬의 고성능 과학 계산용 패키지

Matrix와 Vector 같은 Array 연산의 표준
일반 List에 비해 메모리 효율적이고 속도가 빠르다.
C로 구현되어있어 파이썬과 다르게 dynamic typing을 지원하지 않아 성능의 이점이 있다.

반복문 없이 데이터 배열에 대한 처리를 지원하고, 선형 대수와 관련된 다양한 기능을 제공한다.
import numpy as np로 호출. 별칭은 주로 np를 사용한다.
jupyter notebook에서 함수에 shift+tap을 누르면 해당 함수의 docstring을 알려준다!

ndarray

array 생성방법
np.array([시퀀스자료형], dtype)

import numpy as np

a = [1,2,3,4,5]
b = [5,4,3,2,1]

a = np.array(a, int)
print(a) # [1 2 3 4 5]

test_array = np.array([1,4,5,"8"], float)

print(test_array) # [1. 4. 5. 8.]
print(type(test_array[3])) # <class 'numpy.float64'>
print(test_array.dtype) # float64
print(test_array.shape) # (4,)

위의 방법으로 만든 것이 ndarray 객체.
여기에는 하나의 type만 배열에 들어간다.
numpy에서 타입은 C언어의 타입과 거의 compatible하다.
"5"같은 string type이나 2같이 int type으로 넣어도 dtype에 float를 선언하면 자동으로 형변환이 된다.

dtype은 array의 데이터의 타입, shape는 array의 dimmension 구성(크기, 형태)을 말한다.
ndim은 dimmension의 차원, size는 data의 총 개수를 말한다.
nbytes는 array의 메모리 크기를 반환한다.(원소당 메모리 x 총 원소 개수)

# 3차원 배열 생성
array_3d = np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])

# 배열의 형태를 확인
print(array_3d.shape) # (2, 2, 2)
print(array_3d.ndim) # 3
print(array_3d.size) # 8

rank에 따른 array의 이름

Rank	이름	예시	형태 (Shape)
0	Scalar	`np.array(42)`	`()`
1	Vector	`np.array([1, 2, 3])`	`(3,)`
2	Matrix	`np.array([[1, 2], [3, 4]])`	`(2, 2)`
3	3D Tensor	`np.array([[[1, 2], [3, 4]], [[5, 6], [7, 8]]])`	`(2, 2, 2)`
n	nD Tensor	다양한 n차원 배열	예: `(2, 2, 2, 2)`

Handling Shape

reshape : array의 shape 크기를 변경한다. 단, element의 개수는 동일하다.

test_matrix = [[1,2,3,4],[5,6,7,8]]
np.array(test_matrix,).shape # (2, 4)
test_reshape = np.array(test_matrix).reshape(8,)
print(test_reshape) # [1 2 3 4 5 6 7 8]
test_reshape.shape # (8,)
np.array(test_matrix).reshape(-1,2).shape # (4,2)

위의 예시 마지막 코드처럼 .reshape(-1,2)에서 앞에껄 -1로 하면 뒤의 숫자 차원에 맞춰서 자동으로 계산해 reshape를 해준다.
flatten : 다차원 array를 1차원 array로 변환해준다.

np.array(test_matrix).flatten()
# array([1, 2, 3, 4, 5, 6, 7, 8])

indexing & slicing

리스트와 다르게 2차원 배열에서 [0][0]뿐만 아니라 [0,0] 표기법을 제공한다.
matrix의 경우 앞은 row, 뒤는 column을 의미한다.

a = np.array([[1,2,3],[4.5,5,6]], int)
print(a[0,0]) # 1
a[0,0] = 10
print(a[0][0]) # 10

list와 다르게 행과 열 부분을 나눠서 slicing이 가능하다.
matrix의 부분집합을 추출할 때 유용하다.
:만쓰면 전체를 의미한다. 보통 시작:끝(끝은 미포함)
::처럼 2개를 쓰면 2개씩 세며(0,2,4,8,..) slicing 한다.

print(a[:,1:]) # 전체 행의 1열부터 [[2 3], [5 6]]
print(a[1,1:3]) # 1행의 1~3열(3열은 미포함)[5]
print(a[1:2]) # 1~2헹 [[4 5 6]]

index에서 -1은 제일 마지막부분부터 시작한다.

Data I/O

np.loadtxt("./sample.txt") : 파일 호출
.astype(int) : int로 변환
np.savetxt('int_data.csv', array, delimiter=",") : csv로 저장

김춘복

Backend Dev / Data Engineer

이전 포스트

240625 TIL #434 데이터 저장방식 in Python

다음 포스트

240626 TIL #435 Numpy - 1

TIL : Today I Learned

Today I Learned

Numpy

ndarray

Handling Shape

indexing & slicing

Data I/O

240625 TIL #434 데이터 저장방식 in Python

240627 TIL #436 Numpy - 2

0개의 댓글