Numpy (기본 자료구조)¶

import numpy as np
x = np.array([[1,2,3], [4,5,6]])
print('x:')
print("{}".format(x))

<div class="prompt"></div>

x:
[[1 2 3]
 [4 5 6]]

<div class="prompt"></div>

Numpy 배열 : 
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]

<div class="prompt"></div>

SciPy의 CSR 행렬 : 
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0
  (3, 3)	1.0

<div class="prompt"></div>

C00 표현:
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0
  (3, 3)	1.0

<div class="prompt output_prompt">Out[23]:</div>

[<matplotlib.lines.Line2D at 0x4d9c090>]

Numpy오 과학 계산을 하기 위해서 반드시 필요한 패키지이다. 다차원 배열을 위한 기능, 선형 대수 연산, 푸리에 변환과 같은 고수준 함수

scikit-learn에서 Numpy 배열은 기본 데이터 구조. Numpy 배열 형태의 데이터를 입력으로 받는다. 그래서 우리가 사용할 데이터는 모두 Numpy 배열로 변환되어야 합니다. 그래서 우리가 사용할 데이터는 모두 Numpy qoduffh qusghksehldjdi gka

Numpy 핵심 기능은 다차원(n차원 배열)인 ndarray 클래스입니다.

SciPy (희소행렬)¶

from scipy import sparse
eye = np.eye(4)
print("Numpy 배열 : \n{}".format(eye))

<div class="prompt"></div>

Numpy 배열 : 
[[1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]
 [0. 0. 0. 1.]]

<div class="prompt"></div>

SciPy의 CSR 행렬 : 
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0
  (3, 3)	1.0

<div class="prompt"></div>

C00 표현:
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0
  (3, 3)	1.0

<div class="prompt output_prompt">Out[23]:</div>

[<matplotlib.lines.Line2D at 0x4d9c090>]

<div class="prompt"></div>

<div class="prompt"></div>

sparse_matrix = sparse.csr_matrix(eye)
print("SciPy의 CSR 행렬 : \n{}".format(sparse_matrix))

<div class="prompt"></div>

SciPy의 CSR 행렬 : 
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0
  (3, 3)	1.0

<div class="prompt"></div>

C00 표현:
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0
  (3, 3)	1.0

<div class="prompt output_prompt">Out[23]:</div>

[<matplotlib.lines.Line2D at 0x4d9c090>]

<div class="prompt"></div>

<div class="prompt"></div>

<div class="prompt"></div>

<div class="prompt"></div>

과학 계산용 함수들을 모아둔 파이썬 패키지이다. Scipy

고성능 선형 대수, 함수 최적화, 신호 처리, 특수한 수학함수, 통계 분포 등 많은 기능을 제공.

sparse 는 희소행렬을 제공한다.

data = np.ones(4)
row_indices = np.arange(4)
col_indices = np.arange(4)
eye_coo = sparse.coo_matrix((data, (row_indices, col_indices)))
print("C00 표현:\n{}".format(eye_coo))

<div class="prompt"></div>

C00 표현:
  (0, 0)	1.0
  (1, 1)	1.0
  (2, 2)	1.0
  (3, 3)	1.0

<div class="prompt output_prompt">Out[23]:</div>

[<matplotlib.lines.Line2D at 0x4d9c090>]

<div class="prompt"></div>

<div class="prompt"></div>

<div class="prompt"></div>

<div class="prompt"></div>

Python 버전: 3.7.6 (default, Jan  8 2020, 16:21:45) [MSC v.1916 32 bit (Intel)]
pandas 버전: 1.0.1
matplotlib 버전: 3.1.3
NumPy 버전: 1.18.1
SciPy 버전: 1.4.1
IPython 버전: 7.12.0
scikit-learn 버전: 0.21.1

메모리 부족으로 인해서 C00 표현을 해낼 수 있어야 한다!

? 왜 eye랑 data 다르게 처리를 하고 있는가?

sparse.csr_matrix(eye)
sparse.coo_matrix((data, (row_indices, col_indices)))

matplotlib¶

%matplotlib inline

<div class="prompt output_prompt">Out[23]:</div>

[<matplotlib.lines.Line2D at 0x4d9c090>]

<div class="prompt"></div>

<div class="prompt"></div>

<div class="prompt"></div>

<div class="prompt"></div>

Python 버전: 3.7.6 (default, Jan  8 2020, 16:21:45) [MSC v.1916 32 bit (Intel)]
pandas 버전: 1.0.1
matplotlib 버전: 3.1.3
NumPy 버전: 1.18.1
SciPy 버전: 1.4.1
IPython 버전: 7.12.0
scikit-learn 버전: 0.21.1

import matplotlib.pyplot as plt
# -10부터 10까지 간격이 100개인 배열을 생성한다
x = np.linspace(-10, 10, 100)
y = np.sin(x)
plt.plot(x, y, marker="x")

<div class="prompt output_prompt">Out[23]:</div>

[<matplotlib.lines.Line2D at 0x4d9c090>]

<div class="prompt"></div>

<div class="prompt"></div>

<div class="prompt"></div>

<div class="prompt"></div>

Python 버전: 3.7.6 (default, Jan  8 2020, 16:21:45) [MSC v.1916 32 bit (Intel)]
pandas 버전: 1.0.1
matplotlib 버전: 3.1.3
NumPy 버전: 1.18.1
SciPy 버전: 1.4.1
IPython 버전: 7.12.0
scikit-learn 버전: 0.21.1

Pandas (데이터 처리와 분석)¶

Pandas는 데이터베이스랑 같은 것!
테이블을 수정하고 조작하는 것과 완전 같은 기능을 수행한다!
SQL처럼 테이블에 쿼리나 조인을 수행할 수 있다!

딕셔너리를 활용해서 Dataframe을 만드는 방법 (책 35P)

import pandas as pd
data = {
"name" : ["John", "Anna", "Peter", "Linda"],
"location" : ["New York", "Paris", "Berlin", "London"],
"Age" : [24, 13, 53, 33]
}
data_pandas = pd.DataFrame(data)
display(data_pandas)

<div class="prompt"></div>

<div class="prompt"></div>

<div class="prompt"></div>

Python 버전: 3.7.6 (default, Jan  8 2020, 16:21:45) [MSC v.1916 32 bit (Intel)]
pandas 버전: 1.0.1
matplotlib 버전: 3.1.3
NumPy 버전: 1.18.1
SciPy 버전: 1.4.1
IPython 버전: 7.12.0
scikit-learn 버전: 0.21.1

display(data_pandas[data_pandas.Age > 30])

<div class="prompt"></div>

<div class="prompt"></div>

Python 버전: 3.7.6 (default, Jan  8 2020, 16:21:45) [MSC v.1916 32 bit (Intel)]
pandas 버전: 1.0.1
matplotlib 버전: 3.1.3
NumPy 버전: 1.18.1
SciPy 버전: 1.4.1
IPython 버전: 7.12.0
scikit-learn 버전: 0.21.1

mglearn (그림을 그리거나, 필요한 데이터를 불러들이기 위해 바로 사용한다)¶

이 책의 소프트웨어 버전¶

import sys
print("Python 버전: {}".format(sys.version))
import pandas as pd
print("pandas 버전: {}".format(pd.version))
import matplotlib
print("matplotlib 버전: {}".format(matplotlib.version))
import numpy as np
print("NumPy 버전: {}".format(np.version))
import scipy as sp
print("SciPy 버전: {}".format(sp.version))
import IPython
print("IPython 버전: {}".format(IPython.version))
import sklearn
print("scikit-learn 버전: {}".format(sklearn.version))

<div class="prompt"></div>

Python 버전: 3.7.6 (default, Jan  8 2020, 16:21:45) [MSC v.1916 32 bit (Intel)]
pandas 버전: 1.0.1
matplotlib 버전: 3.1.3
NumPy 버전: 1.18.1
SciPy 버전: 1.4.1
IPython 버전: 7.12.0
scikit-learn 버전: 0.21.1

파이썬 라이브러리를 활용한 머신러닝 1일차

파이썬 라이브러리를 활용한 머신러닝

시작

1.1 왜 머신 러닝 인가?

1.1.1 머신 러닝으로 풀 수 있는 문제

지도학습 예시

비지도학습 예시

지도학습 / 비지도학습 공통점

1.1.2 문제와 데이터 이해하기

1.2 파이썬인가?

1.3 scikit-learn

실습 과정