12. 사이킷런으로 구현해보는 머신러닝

ChamChoi·2022년 1월 7일
0

링크
- 최적의 머신러닝 알고리즘 고르기: https://blogs.sas.com/content/saskorea/2017/08/22/%EC%B5%9C%EC%A0%81%EC%9D%98-%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8B%9D-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98%EC%9D%84-%EA%B3%A0%EB%A5%B4%EA%B8%B0-%EC%9C%84%ED%95%9C-%EC%B9%98%ED%8A%B8/
- Reinforcement Learning KR: https://github.com/reinforcement-learning-kr
- aikorea/awesome-rl: https://github.com/aikorea/awesome-rl
- Scikit-learn: Choosing the right estimator: https://scikit-learn.org/stable/tutorial/machine_learning_map/index.html
- Installing scikit-learn: https://scikit-learn.org/stable/install.html
- scikit-learn: https://scikit-learn.org/stable/index.html
- Scikit-learn: API Reference : https://scikit-learn.org/stable/modules/classes.html
- Scikit-learn: Mean Squared Error : https://scikit-learn.org/stable/modules/model_evaluation.html#mean-squared-error
- Scikit-learn: Dataset loading utilities : https://scikit-learn.org/stable/datasets

  1. 데이터 표현법
    - 사이킷런에서 제공하는 데이터셋: Numpy의 ndarray, Pandas의 DataFrame, SciPy의 Sparse Matrix
    - 데이터 표현 방식: Feature matrix, Target vector
    (1) Feature matrix(특성 행렬)
    - 입력 데이터를 의미.
    - 특성(feature): 데이터에서 수치 값, 이산 값, 불리언 값으로 표현되는 개별 관측치를 의미. 특성 행렬에서는 열에 해당하는 값.
    - 표본(Sample): 각 입력 데이터, 특성행렬에서는 행에 해당하는 값.
    - n_samples: 행의 개수(표본의 개수)
    - n_features: 열의 개수(특성의 개수)
    - X: 통상 특성 행렬은 변수명 X로 표기함.
    - [n_samples, n_features]: [행, 열] 형태의 2차원 배열 구조를 사용하며 ndarray, DataFrame, Sparse Matrix를 사용하여 나타낼 수 있음.

(2) Target vector(타겟 벡터)
- 입력 데이터의 라벨(정답)을 의미함.
- 목표(Target): 라벨, 타겟값, 목표값이라고도 부르며 특성 행렬(Feature matrix)로부터 예측하고자 하는 것을 말함.
- n_samples: 벡터의 길이(라벨의 개수)
- 타겟 벡터에서 n_features는 없음.
- y: 통상 타겟 벡터는 변수명 y로 표기함.
- 타겟 벡터는 보통 1차원 벡터로 나타내며, 이는 ndarray, series를 사용하여 나타낼 수 있음.
- 타겟 벡터는 경우에 따라 1차원으로 나타내지 않을 수도 있음.
- 특성 행렬 X의 n_samples와 타겟 벡터 y의 n_samples는 동일해야 함.

profile
microCT_applications

0개의 댓글