머신러닝 2

는는·2022년 11월 21일
0

python

목록 보기
10/19

어떤 입력이 들어 갔을때 어떤 정답이 나와야하는지 알려주면서 학습을 하는 것이 지도 학습입니다.

예시 ; 강아지, 고양이, 자동차, 비행기 이와 같은 범주를 Classification이고, 혈압과의 정확한 수치,몸무게의 수치와 같은 continuous한 값이라면, Regression이 되는 겁니다.

강화학습에 대해 들어 보셨나요? 알파고가 강화학습을 이용해서 학습이 됐다더라 이런 기사를 많이 접해보셨을 텐데요 바로 그 강화학습입니다.
우리가 y = f(x)에서 입력하고 출력이 있을 때 y에 따라서 이 태스크가 나눠지게 됩니다. 우리가 최종적으로 출력하는 y가 무엇인가, 어떤한 변수인가에 따라서 최종적인 결과물이 확실히 달라지게 됩니다.

y가 강아지, 고양이,비행기 와 같은 범주형 변수라고 하면 우리는 Classification라고 부르게 됩니다. 만약에 y가 연속적인 값이라고 하면, Regression이라고 부르게 됩니다.

Classification error에서 갖고 있는 개념은 뭘까?
우리는 실제 이 class가 있고, 실제 realclass가 있고, 그리고 A라는 모형, B라는 모형이 출력한 결과가 있겠죠.
전체 우리 데이터 중에서 모형이 예측한 거 있고 그 다음에 실제 데이터 클래스에 있는데, 모형이 예측한 거랑 실제 데이터랑 맞춰봐서 더 정확하게 예측되는 거, 그게 좋은 거라고 판단합니다.

학습 오차만 줄면 예측을 했을 때 예측도 당연히 오차가 생길 텐데, 그럼 그 예측 오차는 어떻게 되나요?

머신러닝에서 모형을 잘 학습시키는 것도 중요한 이슈지만,학습된 모형이 잘 예측되게끔 만들어주는 것도 만족스러운 상황이 있을 수 있어요.

대부분의 케이스에서 우리는 내가 가지고 있지 않은 데이터를 데이터내에서 잘 예측하기 원합니다. 그것과 연관된 게 바로 Training error랑 Validation error라는 개념으로 Training error는 내가 학습시키는 그 데이터 내에서 발생하는 오차이고, Validation error는 내가 학습할 때 사용하지 않았던 데이터에 대해서 검증한, 그 데이터를 이 모형에 넣으면 출력되는 y 입니다. 실제 데이터에 있는 실제 모형에서 출력된 y랑 정말 차이가 큰 지 작은지 검증용으로 쓰는 에로가 되겠고, 일반화 오류라는 개념으로 연관이 됩니다.

모형이 너무 단순해서 데이터에 들어있는 전체 패턴을 표현하지 못한다고 하면 Under- fitting이라고 합니다.

너무 복잡해서 쓸데없는 패턴까지 다 학습을 하는 것을, Over -fitting이라고 합니다.

Data 관련 용어

Dataset - 정의된 구조로 모아져 있는 데이터 집합 (엑셀에 잘 정리된 형태
Data Point - 데이터 세트에 속해 있는 하나의 관측치
Feature - 데이터를 구성하는 하나의 특성 (숫자형, 범주형
Label - 입력 변수들에 의해 예측, 분류되는 출력 변수

분류 - 종속 변수(y)가 범주형일 때 사용하는 모델
( 입력된 보험 청구권에 대해서 자동심사와 인심사 분류

회귀 - 종속 변수(y)가 연속형일때 사용하는 모델
( 날씨, 유가, 경제 지표 등을 이용한 주가 예측

model - 모델은 입력 변수와 출력 변수 간의 관계를 정의해줄 수 있는 추상적인 함수 구조

0개의 댓글