신경망 모델
데이터 구성 요소
정형 데이터에서 각 샘플은 특징 값들을 가짐.
각 데이터 샘플에 목표 변수(레이블)를 부여 (레이블링)
feature Vector: 샘플의 특징을 구분할 수 있는 중요한 특성(요소)의 집합
머신러닝: 딥러닝에 비해 비교적 적은 데이터에도 성능 확보 가능 (학습을 시키는 인간의 개입 때문)
딥러닝: 대규모 데이터에서 성능 발휘 가능
머신러닝의 종류
분류
이산적인 범주
ex) 남/여
분류 학습: 훈련 데이터 + 테스트 데이터
-> 잘 분류하는 규칙을 학습시키는 함수 찾기
회귀
군집화
명확한 기준 없이 유사한 데이터를 묶음.
군집 과정 원리: 군집 내 응집도 최대화, 군집 간 분리도 최대화
차원축소
차원 = 피처의 개수
차원 수가 많으면 학습 속도, 성능 저하 발생
-> 이를 방지하기 위해 차원축소로 불필요한 특징(노이즈) 제거
전처리: 가장 중요한 과정, 성능을 좌지우지함
검증이 필요한 이유: 과소 적합, 과적합 방지
손실함수
확증적 데이터 분석 CDA
크롤링도 노가다 아님.. 진짜 직접 수집하기