[구글 머신러닝 단기집중과정] 5강

환공지능·2021년 7월 2일

구글 머신러닝 단기집중과정

목록 보기

5/15

1. 일반화 : 과적합의 위험

흔히 Overfitting이 일어난 모델이라고 불리는 과적합 모델은 학습하는 동안 손실이 적지만 새로운 데이터를 잘 예측하지 못한다. 필요 이상으로 복잡한 모델을 만들면 과적합(Overfitting)이 발생하게 되며 머신 러닝의 근본적인 과제는 데이터 적합도를 유지하는 동시에 최대한 단순화하는 것이다.

머신러닝의 목표는 숨겨진 실제 확률 분포에서 추출되는 새 데이터를 잘 예측하는 것이다. 하지만 모델에서는 모든 데이터를 볼 수 없으며 학습 데이터셋에서만 샘플을 추출할 수 있다.

과학자가 복잡한 것보다는 간단한 공식이나 이론을 선택해야 한다는 Occam의 면도날 법칙을 머신러닝 용어로 표현하면 다음과 같다.

ML 모델이 덜 복잡할수록 샘플의 특성 때문이 아니어도 좋은 경험적 결과를 얻을 가능성이 높다.

이제 Occam의 면도날 법칙은 통계적 학습 이론 및 컴퓨터 학습 이론 분야에서 공식화되었으며, 이들 분야에서는 다음과 같은 요인을 기반으로 새 데이터에 맞게 모델이 일반화되는 정도를 통계적으로 설명하는 일반화 한계를 개발했다.

(1) 데이터셋의 종류

이론적 분석은 이상적인 가정하에 형식적인 결과를 보장하지만 실제로 적용하기 어려울 수 있다. 머신러닝 단기집중과정에서는 대신 경험적 평가에 초점을 맞춰 새 데이터에 맞게 모델이 일반화되는 정도를 판단한다.

머신러닝의 목표는 이전에 보지 못한 새 데이터를 잘 예측하는 것이다. 하지만 데이터 세트에서 모델을 만드는 경우 어떻게 이전에 보지 못한 데이터를 얻을 수 있는 한가지 방법은 데이터 세트를 다음 두 하위 세트로 나누는 것이다.

- 학습 세트(Train set) - 모델을 학습시키기 위한 하위 세트
- 테스트 세트(Test set) - 모델을 테스트하기 위한 하위 세트

(2) 테스트셋의 성능

테스트 세트에서 성능이 좋으면 일반적으로 다음과 같은 경우 새 데이터에서도 성능이 좋다.

테스트 세트가 충분히 큰 경우.
같은 테스트 세트를 반복 사용하지 않는 경우.

(3) ML 세부사항

일반화에서는 기본적으로 다음 세 가지 사항을 가정합니다.

분포에서 독립적이고 동일하게(i.i.d.이어야 함) 임의로 예를 추출. 즉, 예가 서로 영향을 미치지 않음.
분포가 정상성을 보임. 즉 데이터 세트 내에서 분포가 달라지지 않음.
같은 분포를 따르는 부분에서 예를 추출

2. 데이터 분할

이전 모듈에서는 데이터 세트를 다음과 같이 두 부분으로 나눈다는 개념을 소개했다.

(1) 학습 세트 - 모델을 학습시키기 위한 데이터 세트의 일부분
(2) 평가 세트 - 모델을 테스트하기 위한 데이터 세트의 일부분

데이터 세트 하나를 다음과 같이 분할하는 방법을 생각해 볼 수 있다.

그림 1. 데이터 세트 하나를 학습 세트와 평가 세트로 분할

평가 세트는 다음 두 가지 조건을 만족해야 한다.

통계적으로 유의미한 결과를 도출할 만큼 커야 함.
데이터 세트를 전체적으로 나타내야 함. 즉, 평가 세트가 학습 세트와 같은 특징을 가지도록 선별.

평가 세트가 위와 같은 두 가지 조건을 만족한다면 이제 새로운 데이터에도 일반화될 수 있는 모델을 만드는 것이 목표가 된다. 평가 세트는 새 데이터를 모의 실험하는 역할을 하며, 다음 그림을 예로 들겠다.

여기에서 학습 데이터를 익힌 모델은 매우 단순하다. 이 모델은 그다지 완벽하지 않으며 몇 가지 예측이 빗나갔다. 그러나 테스트 데이터에 대한 결과는 학습 데이터에 대한 결과에 비해 나쁘지 않다. 즉, 이 단순 모델은 학습 데이터에 과적합되지 않았다.

그림 2. 학습된 모델을 테스트 데이터로 검증

유의해야할 점은 테스트 데이터로 학습하면 안된다는 것이다. 평가 측정항목에서 이상할 정도로 좋은 결과가 나온다면 실수로 평가 세트로 학습했다는 증거일 수 있으며, 예를 들어 정확도가 높다면 테스트 데이터가 학습 세트로 유출되었을 수 있다.

데이터 분할 및 학습/테스트 시 언제나 이를 유의해야 한다.

.
.
.
강의 링크 : 구글 머신러닝 단기집중과정

환공지능

데이터사이언티스트 대학원생

이전 포스트

[구글 머신러닝 단기집중과정] 4강

다음 포스트

[구글 머신러닝 단기집중과정] 5강