6/27 Lab 공부 내용 정리

HIROYOSHI·2022년 6월 27일
1

lab

목록 보기
1/1

<기계학습 정리> 6/27/2022
1장:
기계학습 방식.
지식기반, 규칙기반 방식: 규칙을 만들어서 사용하는 방식.
지식기반 조금만 생각해 보아도 한계가 있다는 것을 알 수 있음.
이후 데이터를 중심으로 하는 접근 방식인 기계학습 방식을 채택하였음
기계학습에서 예측을 할 때 사용하는 방식으로 분류와 회귀로 나누어지며 실수 값을 예측하는 것을 회귀라고 한다.

의문1, 만약 숫자를 인식하는 기계에서 6과 9를 각도를 돌리면서 분석을 한다고 할 때 각도를 바꾸면서 모양은 인식을 했다고 치면 6인지 9인지 방향은 어떻게 알 수 있는 것인가?
그 방안으로 따낸 모양을 각도를 회전하면서 패턴 매칭을 시전한다면 최적화된 알고리즘은 어떤 것이 있을 수 있는가?

학습을 하기위해 사용하는 집합의 명칭: 학습집합 또는 훈련집합이라고 함.
이 학습을 통해 예측하는 목표 값을 보고 목표 값이라고 함
이 목표 값이 잘 들어맞는지 확인하는 데이터를 보고 테스트 데이터라고 함.

마지막으로 훈련집합과 테스트 집합을 합쳐 데이터베이스라고 함.

특징 공간의 변환을 통해 데이터 전처리를 할 수 있다.
이 변환과정은 전체적으로 보면 학습데이터(훈련집합)의 분석을 돕는 즉 모델의 정확도를 올려주는 과정이다.

모델선택:
데이터모델을 선택할 때 선형과 곡선 등의 여러 모델을 선택할 수 있는데 이때 과잉적합과 과소적합을 잘 확인하고 선택을 해야 한다.

바이어스와 분산: 기계학습의 목표는 훈련 집합에 없는 데이터에서 목표 값을 추출하는데 있습니다.
바이어스와 분산은 학습된 데이터가 과적합인지 아닌지를 판단하기 위한 기준과 같은 것이며
바이어스가 작고 분산도 작은 것이 예측했을 때 정확도가 높다고 합니다.

검증집합과 교차검증을 이용한 모델 선택 알고리즘:

모델집합과 훈련집합, 검증집합, 테스트 집합을 이용하여 모델들을 비교하고 어떤 모델이 학습데이터를 분석했을 때 적합한지 테스트하는 것이 검증집합을 이용한 최적 모델선택 알고리즘입니다.

규제:
데이터 일반화능력을 높일 때 사용할 수 있는 방식으로 데이터 확대, 가중치 감쇠가 있습니다.

데이터 확대를 하면 과잉적합이 줄어드는 효과를 기대할 수 있는 대신 비용이 많이들 수도 있다는 단점이 있습니다.

가중치 감쇠 또한 가중치를 감쇠함으로써 과잉적합을 줄임으로써 더욱 일반적인 일반화를 할 수 있게 할 수 있습니다.

지도학습: 학습데이터와 목표 값을 둘 다 제공하여 학습을 시키는 것이며 이는 목표 값을 모르는 데이터의 y값을 알아내는 곳에 사용할 수 있습니다.

비지도 학습: 목표 값이라는 것은 따로 없고 학습데이터만 있고 그 데이터들의 그룹화 와 같은 작업을 처리함.

강화학습: 강화 학습도 목표 값을 주어 지도하는데 목표 값의 형태가 지도 학습과 많이 다르다.
장기로 예를 들면 각각의 수를 샘플로 주고 이에 대한 승, 패, 점수 등을 목표 값으로 주어 학습을 시키는 학습방식이다.

준 지도 학습: 준 지도 학습은 데이터를 수집하는데 비용이 많이 든다. 7장에서 다시.

profile
KNU COMPUTER ENGINEERING

0개의 댓글