scikit-learn 데이터 표현법

괴도소녀·2021년 7월 12일

Machine Learning

목록 보기

3/10

NumPy의 ndarray, Pandas의 DataFrame, SciPy의 Sparse Matrix를 이용해 나타낼 수 있으며, 훈련과 예측 등 머신러닝 모델을 다룰 때는 CoreAPI라고 불리는 fit(), transfomer(), predict()과 같은 메소드들을 사용한다.
아래는 scikit-learn의 api modules에 대해 정리가 되어있는 공식 홈페이지 링크이다.
scikit-learn api modules

Feature Matrix(특성 행렬)

입력 데이터
feature(특성):
데이터에서 수치 값, 이산 값, 불리언 값으로 표현되는 개별 관측치.
특성 행렬에서는 열(Column)에 해당하는 값이다.
sample(표본): 각 입력 데이터, 특성(feature) 행렬에서는 행(row)에 해당하는 값.
n_features: 열(column)의 개수(특성의 개수)
n_samples: 행(row)의 개수(표본의 개수)
X: 보통 특성(feature) 행렬은 변수명 X로 표기.
[n_samples, n_features]은 [행, 열]형태의 2차원 배열 구조를 사용.
NumPy의 ndarray, Pandas의 DataFrame, SciPy의 Sparse Matrix를 사용하여 표현함.

Target Vector(타겟 벡터)

입력 데이터의 label(라벨 : 정답)
목표(Target): label, target value, 목표값이라고도 부르며 특성 행렬(Feature Matrix)로부터 예측하고자 하는 것.
n_samples: 벡터의 길이(label의 개수)
n_features는 없다.
y: 보통 타겟 벡터는 변수명 y로 표기.
보통 1차원 벡터로 나타냄. NumPy의 ndarray, Pandas의 Series를 사용하여 나타낼 수 있습니다.
단, 경우에 따라서 1차원으로 나타내지 않을 수도 있다.

주의할점!!

feature matrics X의 n_samples(row)와 타겟벡터 y의 n_samples는 동일해야 한다.

괴도소녀

이전 포스트

scikit-learn에 대하여

다음 포스트