1. 나의 첫 머신러닝
matplotlib (그래프 라이브러리) 기초 지식
- plt.scatter(y축 1차원 배열, x축 1차원 배열) : 산점도 그래프 작성. 여러 번 사용 시, 한 그래프에 다수의 산점도 작성
- plt.xlabel(String) : x축 레이블
- plt.ylabel(String) : y축 레이블
- plt.show() : 그래프 출력
scikit-learn (머신러닝 패키지) 기초 지식
- KNeighborsClassifier() : k-최근접 이웃 분류 모델을 만드는 클래스
- n_neighbors : 이웃의 개수 (기본값 5)
- p : 거리 재는 방식 지정 (기본값 2. 1: 맨해튼 거리, 2: 유클리디안 거리)
- n_jobs : 사용할 CPU 코어 지정 (기본값 1. -1 : 모든 CPU 코어 사용)
- fit(훈련에 사용할 특성 데이터, 정답 데이터) : 사이킷런 모델 훈련 시 사용하는 메서드.
- predict(특성 데이터) : 사이킷런 모델 훈련하고 예측할 때 사용
- score(특성 데이터, 정답 데이터) : 훈련된 사이킷런 모델의 성능 측정
- train_test_split() : 훈련 세트와 데이터 세트로 나누는 함수
- kneighbors() : k-최근접 이웃 객체의 메서드. 가장 가까운 이웃을 찾아 거리와 이웃 샘플 인덱스 반환
2. 데이터 다루기
지도 학습
- 입력(특성) + 타깃 = 훈련 데이터
- 샘플링 편향 : 샘플 데이터가 특정 종류에 편향되어 있는 경우,
numpy (배열 관련 라이브러리) 기초 지식
- np.shape(배열) : (샘플 수, 특성 수) 출력
- np.random.seed(int) : 랜덤 정수 시드 생성
- np.arange(int) : 0 부터 int-1 까지 1씩 증가하는 배열 생성.
- 매개 변수가 2개인 경우, 시작 숫자와 종료 숫자 의미.
- 매개 변수가 3개면, 마지막 값이 간격 의미.
- np.random.shuffle(array) : 배열을 무작위로 섞음
데이터 전처리
- 데이터 전처리
- 데이터를 표현하는 기준을 일정하게 맞추는 작업
- 거리 기반 알고리즘일수록 중요
- 표준점수 (z점수) 방식
- 평균에서 표준편차의 몇 배만큼 떨어져있는지를 의미
미션
기본 미션
코랩 실습 화면 캡쳐하기
선택 미션
Ch.02(02-1) 확인 문제 풀고, 풀이 과정 정리
- 답 : 1
- 풀이
- 지도 학습 : 정답이 있는 데이터를 활용하여 학습. (ex. 분류, 회귀)
- 비지도 학습 : 정답 레이블이 없는 데이터를 비슷한 특징끼리 군집화하는 방법. (ex. 클러스터링)
- 차원 축소 : 다차원 데이터를 축소해 새로운 차원의 데이터 세트를 생성하는 것.
- 강화 학습 : 정답이 따로 정해지지 않고, 행동에 보상을 받으며 학습하는 방식.