🧑‍💻 [Python EDA 1] Numpy

김미연·2023년 8월 19일

[나만의 노트] Python EDA

목록 보기

1/9

1. Numpy란

https://numpy.org/

Numerical Python
수치연산 및 벡터 연산에 최적화된 라이브러리
최적화된 C code로 구현 → 좋은 성능
파이썬과 달리, 수치 연산의 안정성 보장(numerical stable)

2. Numpy를 사용해야 하는 이유

데이터는 벡터로 표현되어 있기 때문에, 벡터 연산을 잘 해야 데이터 분석 잘 할 수 있다.
실수값 연산에 오류가 생기면 원하는 결과를 얻지 못할 수 있다. 그런데 파이썬은 수치 연산에 취약한 반면, Numpy는 수치 연산이 안정적이다.
Numpy는 벡터 연산을 빠르게 처리하는 데 최적화되어 있다.

3. Numpy array

Numpy에서 사용되는 기본적인 자료구조
python 리스트와 비슷하나, 아래와 같은 차이점이 있다.
1. 선언한 이후 크기 변경 불가
2. 모든 원소의 데이터 타입 동일
3. numpy array끼리 연산 가능(python 리스트는 덧셈만 가능)
4. numpy array 전체에 연산 가능(python 리스트는 곱셈만 가능)
각 차원을 축(axis)이라고 표현

출처: https://www.pythontutorial.net/python-numpy/what-is-numpy/

4. Numpy 사용방법

1) 설치

!pip install numpy==1.23.5

2) 불러오기

import numpy as np

3) 버전 확인

np.__version__

5. Numpay array 생성

np.array([[1, 2],[3, 4]]) # 리스트를 입력으로 array 생성
np.array((1, 2, 3)) # 튜플을 입력으로 array 생성

np.zeros(5, dtype=int) # 5개 0(정수)이 담긴 array 생성
np.zeros((3, 4)) # 0(실수)으로 채워진 (3, 4) 크기의  array 생성

np.ones(7, dtype=int) # 7개 1(정수)이 담긴 array 생성
np.ones((2, 3, 4), dtype=np.int64) # 1(정수)로 채워진 (2,3,4) 크기 array

np.empty(4) # 4개의 아무 데이터가 담긴 array
np.empty((2, 3)) # 초기화 되지 않은 (2,3) 크기의 array

np.full(5, 2) # 2가 5개 있는 array 생성
np.random.random(3) # 3개의 랜덤한 수 담긴 array

# 연속적인 데이터 담긴 array 생성
np.arange(0, 10, 2) # 0이상 10미만 정수 5씩 차이나게 array 생성
np.arange(3) # 0~3 정수 담긴 array 생성

np.linspace(0, 49, 50) # 0~49까지의 범위를 50개로 잘라 array 생성
np.linspace(0, 49) # 위와 동일(3번째 인자 디폴트 50)

np.arange : 간격 강조할 때 사용
np.arange(0, 1+0.25, 0.25) # 가독성을 위해서 1.25를 1+0.25로 표현!
np.linspace : 개수 강조할 때 사용
np.linspace(0, 1, 5) # 0부터 1까지(끝 값 포함) 5등분(결과는 위와 동일)

6. Numpay array 연산

덧셈, 뺄셈, 곱셈, 나눗셈 : 차원(축)을 기준으로 같은 위치에 있는 원소끼리 연산
벡터의 내적연산 가능
```
v1 @ v2
```

논리 연산

arr1 < 35

filter = np.where(arr1 > 4) # 괄호 안 연산 결과가 True인 요소의 인덱스 담긴 array

조건에 맞는 값 추출 가능

자동 형 변환
: 수치연산할 때 각각의 dtype이 다르면, 더 큰 범위의 타입(int < float < complex)으로 데이터타입 변경

Broadcast
: 서로 크기가 다른 numpy array를 연산할 때, 자동으로 연산을 전파(broadcast)해주는 기능

arr1 = np.array([1, 0, 0]) # 1d array
arr2 = np.array([[1, 2, 3],
             	 [4, 5, 6]]) # 2d array
arr1 + arr2 # 같은 차원을 기준으로 더해줌(결과 : 2차원)
 			# [arr1 + arr2[0], arr1 + arr2[1]]

Universal Function
: broadcast 기능을 확장해, numpy array의 모든 원소에 동일한 함수를 반복문으로 적용한 것과 같은 효과를 내는 기능
🌟 반복문 사용하는 것보다 빠른 성능
```
arr = np.array([1., 2., 3., 4.])
 arr + 2 # f = lambda x : x + 2
```

🔥 TIP) 배열의 shape 계산하기

앞의 대괄호( [ ) 개수로 차원 확인(n)

첫번째 대괄호 안에 담긴 요소(또는 대괄호) 수 세기(a)

그 다음 대괄호 안에 담긴 요소(또는 대괄호) 수 세기(b)

위 과정 (n번) 반복하여 shape 계산하기(a,b,...)

Fancy Indexing¶

Numpy array[row에 대한 조건, column에 대한 조건]

arr = np.array([[1, 2, 3, 4],
           	     [5, 6, 7, 8],
           	     [9, 10, 11, 12]])
                   
# arr의 2row, 3column 원소 인덱싱
arr[1, 2] # 행렬과 같은 노테이션(표기법)
   		  # arr2[1][2] >> 리스트 인덱싱 가능		
arr[[0, 1, 2], 2] # arr의 세번째 column
arr[:, 2] # 위와 동일

# arr의 두번째 column중에서 6보다 큰 원소들 찾기
mask = arr2[:,1] > 6
arr2[:,1][mask]
arr2[mask, 1] # 위와 동일

arr[arr[:, 0] > 8] # row에 대한 조건으로 인덱싱 >> 3행 전부 출력

7. Numpy 함수

1) 수학 함수

np.random.seed(42)

# 표준정규분포에서 원소를 random sampling하여 5x3 행렬 생성
mat1 = np.random.randn(5, 3)

np.abs(mat1) # mat1에 절대값
np.square(mat1) # mat1 제곱
np.sqrt(mat1) # mat1의 제곱근

np.add(A, 2) # 더하기
np.subtract(A, B) # 빼기
np.multiply(A, B) # 곱하기
np.divide(A, B) # 나누기

2) 집계 함수

np.random.seed(42)
mat2 = np.random.rand(3, 2) # 0~1사이 균등분포 이루는 원소 담긴 행렬 생성

np.sum(mat2, axis=1) # 합계
mat2.sum() # 합계

np.mean(mat2, axis=0) # 평균
mat2.mean() # 평균

np.std(mat2) # 표준편차
mat2.std() # 표준편차

np.var(mat2) # 분산
mat2.var() # 분산

np.min(mat2, axis=1) # 최솟값
mat2.min() # 최솟값

np.max(mat2, axis=0) # 최댓값
mat2.max() # 최댓값

np.median(mat2) # 중앙값(numpy array의 메서드 X)

np.argmin(mat2, axis=1) # 최소값이 있는 Index 🌟🌟🌟
mat2.argmin() # 최소값이 있는 Index 🌟🌟🌟

np.argmax(mat2, axis=0) # 최대값이 있는 Index 🌟🌟🌟
mat2.argmax() # 최대값이 있는 Index 🌟🌟🌟

mat2.cumsum() # 누적합

🔥 TIP) 집계함수의 매개변수 axis(축 기준 연산)

axis=0 : 행 기준
ex) np.sum(mat2, axis=0)
행 기준으로 더하기 때문에, 결과적으로 세로방향으로 더한다

axis=1 : 열 기준
ex) np.sum(mat2, axis=1)
열 기준으로 더하기 때문에, 결과적으로 가로방향으로 더한다

3) 정렬 함수

np.sort(mat2, axis=0) # 정렬 (오름차순 정렬만 가능)
np.argsort(mat2, axis=0) # 정렬 후 원본 데이터 index 출력

8. Numpy 속성

arr = np.array([[1, 2],[3, 4]])
arr.shape # numpy array 각 축의 크기
arr.ndim # 축의 개수
arr.dtype # 각 요소의 타입
arr.itemsize # 각 요소 타입의 bytes 크기
arr.size # 전체 요소의 개수

9. Numpy 인덱싱과 슬라이싱

1) 인덱싱과 슬라이싱

a = np.arange(10)**2
a[2] # a 배열의 2번째 인덱스 출력
a[::-1] # reverse : 배열의 요소 거꾸로 출력
a[0:6:2] = 1000 # 인덱스 0, 2, 4 해당하는 값에 1000 삽입

2) 인덱스 배열로 인덱싱

a = np.arange(8)**2 # a = [ 0  1  4  9 16 25 36 49]

i = np.array([1, 1, 3, 5])
a[i] # [ 1  1  9 25] 출력

j = np.array([[3, 4], [2, 5]])
a[j] # [[ 9 16] [ 4 25]] 출력

3) boolean 인덱싱

a = np.arange(12).reshape(3,4) # [[ 0  1  2  3][ 4  5  6  7][ 8  9 10 11]] 출력
b = a > 4 # [[False False False False][False  True  True  True][ True  True  True  True]]
a[b] # [ 5  6  7  8  9 10 11] 출력
a[b].shape # (7,) 출력

10. Numpy 크기 변경

a.ravel() # 1차원으로 변경
a.reshape(-1) # 위와 동일
a.reshape(2, 6) # 지정한 차원 (2, 6)으로 변경
a.T # 전치 [[ 0  4  8][ 1  5  9][ 2  6 10][ 3  7 11]] → 차원 (4,3)으로 변경

11. Numpy 데이터 합치기

np.vstack(): axis=0(행 기준)으로 합치기

np.hstack(): axis=1(열 기준)으로 합치기
a = np.array([1, 2, 3, 4]).reshape(2, 2)
b = np.array([5, 6, 7, 8]).reshape(2, 2)
np.vstack((a, b))
np.hstack((a, b))
출처 : https://www.pythontutorial.net/python-numpy/numpy-vstack/
출처 : https://www.pythontutorial.net/python-numpy/numpy-hstack/

12. Numpy 데이터 쪼개기

a = np.arange(12).reshape(2, 6) # [[ 0  1  2  3  4  5][ 6  7  8  9 10 11]]

np.hsplit(a, 3) # axis=1 기준으로 데이터 3등분
# [array([[0, 1],[6, 7]]),array([[2, 3],[8, 9]]),array([[ 4,  5],[10, 11]])]

np.hsplit(a, (3, 4)) # [:, :3], [:, 3:4], [:, 4:]로 분할
# [array([[0, 1, 2],[6, 7, 8]]),array([[3],[9]]),array([[4, 5],[10, 11]])]

np.vsplit(a, 2) # axis=0 기준으로 데이터 2등분

김미연

다음 포스트

🧑‍💻 [Python EDA 2] Pandas

1개의 댓글

happy

2023년 8월 19일

정보에 감사드립니다.

답글 달기

🧑‍💻 [Python EDA 1] Numpy

[나만의 노트] Python EDA

1. Numpy란

2. Numpy를 사용해야 하는 이유

3. Numpy array

4. Numpy 사용방법

1) 설치

2) 불러오기

3) 버전 확인

5. Numpay array 생성

6. Numpay array 연산

7. Numpy 함수

1) 수학 함수

2) 집계 함수

3) 정렬 함수

8. Numpy 속성

9. Numpy 인덱싱과 슬라이싱

1) 인덱싱과 슬라이싱

2) 인덱스 배열로 인덱싱

3) boolean 인덱싱

10. Numpy 크기 변경

11. Numpy 데이터 합치기

12. Numpy 데이터 쪼개기

🧑‍💻 [Python EDA 2] Pandas

1개의 댓글

관련 채용 정보