np.column_stack()
: 전달받은 리스트를 일렬로 세운 다음 나란히 연결
연결할 리스트는 튜플 형태로 전달.
np.column_stack(([1, 2, 3], [4, 5, 6]))
-> 결과
array([[1, 4
2, 5
3, 6]])
np.concatenate()
: 첫 번째 차원을 따라 배열을 연결.
[1, 1, 1] 과 [0, 0, 0] concat -> [1, 1, 1, 0, 0, 0]
브로드캐스팅
: 모양이 다른 배열 간의 연산이 어떤 조건을 만족했을 때 가능해지도록 배열을 자동적으로 변환하는 것. 넘파이 배열 사이에서 일어난다.
train_test_split()
: 리스트나 배열을 비율에 맞게 훈련 세트와 테스트 세트로 나눠준다.
기본적으로 25%를 테스트 세트로 떼어낸다.
# import
from sklearn.model_selection import train_test_split
# stratify :클래스 비율에 맞게 데이터 나눈다.
train_input, test_input, train_target, test_target = train_test_split(fish_data, fish_target, stratify = fish_target, random_state = 42)
kneighbors()
: 주어진 샘플에서 가장 가까운 이웃을 찾아주는 메서드.
이웃까지의 거리와 이웃 샘플의 인덱스를 반환.
distance, indexes = kn.kneighbors([[25, 150]])
train_test_split()
: 훈련 데이터를 훈련 세트와 테스트 세트로 나누는 함수.
test_size
: 테스트 세트로 나눌 비율. 기본값은 0.25shuffle
: 훈련세트와 테스트세트로 나누기 전에 무작위로 섞을지 여부. 기본값은 Truestratify
: 매개변수에 클래스 레이블이 담긴 배열(일반적으로 타깃 데이터)을 전달하면 클래스 비율에 맞게 훈련 세트와 테스트 세트를 나눈다.kneighbors()
: k-최근접 이웃 객체의 메서드. 입력한 데이터에 가장 가까운 이웃을 찾아 거리와 이웃 샘플의 인덱스를 반환