Dataset for Deep Learning

최승훈·2023년 8월 24일
0

머신러닝과 딥러닝

한국어로 직역해보면 “기계 학습”입니다. 머신러닝은 인공지능을 만들기 위해 기계를 학습시키는 다양한 방법에 대한 학문으로 ‘로봇공학’, ‘제어계측공학’과 같이 하나의 학문입니다.

딥러닝(Deep Learning)이란 머신러닝보다 더 작은 개념으로 ‘신경망’을 통해 인공지능을 만드는 머신러닝의 한 종류입니다. 딥러닝은 신경망을 여러 층 쌓아서 만든 것입니다. 신경세포들이 모여 이루어진 신경망을 여러 계층 쌓아서 만든 깊은 신경망을 딥러닝이라고 합니다. 층이 깊어서, ‘심층 학습, 깊은 학습’으로 불리는 학습 방법입니다.

인공지능 > 머신러닝 > 딥러닝
최근에는 경계가 모호해지고 있지만, 머신러닝과 딥러닝의 포함관계를 설명하자면 아래 그림처럼 표현해 볼 수 있습니다.

전통적인 머신러닝, 딥러닝의 차이 : 사람의 개입 여부
머신 러닝은 알고리즘을 사용하여 데이터를 구문 분석하고 해당 데이터에서 학습하며, 학습한 내용에 따라 정보에 근거한 결정을 내립니다.

딥 러닝은 알고리즘을 계층으로 구성하여 자체적으로 배우고 사람처럼 결정을 내릴 수 있는 '인공 신경망'을 만듭니다.

Dataset 구조

인공지능을 개발하기 위해서 필수적으로 갖춰져야 할 것은 많은 데이터입니다. 데이터가 많을수록 학습의 정확도가 높아지고 예측을 더 정확하게 할 수 있습니다. 또한 좋은 인공지능을 만들려면 인공지능에게 학습시키는 데이터의 질이 매우 중요합니다. 특정한 작업을 위해서 데이터를 관련성 있게 모아놓은 것을 데이터셋이라고 합니다. Dataset은 크게 Train, Validation, Test로 구성되어 있습니다.

Training set, Validation set, Test sets 비율

Trainingset:Validationset:Testsets=60:20:20Training set : Validation set : Test sets = 60 : 20 : 20

Training set의 목적
Training set(훈련 데이터)은 모델을 학습하는데 사용됩니다. Training set으로 모델을 만든 뒤 동일한 데이터로 성능을 평가해보기도 하지만, 유효한 평가는 아닙니다.

Validation set의 목적
Validation set(검정 데이터)은 training set으로 만들어진 모델의 성능을 측정하기 위해 사용됩니다. 일반적으로 어떤 모델이 가장 데이터에 적합한지 찾아내기 위해서 다양한 파라미터와 모델을 사용해보게 되며, 그 중 validation set으로 가장 성능이 좋았던 모델을 선택합니다.

Test set의 목적
Test set(테스트 데이터)은 validation set으로 사용할 모델이 결정 된 후, 마지막으로 딱 한번 해당 모델의 예상되는 성능을 측정하기 위해 사용됩니다. 이미 validation set은 여러 모델에 반복적으로 사용되었고 그중 운 좋게 성능이 보다 더 뛰어난 것으로 측정되어 모델이 선택되었을 가능성이 있습니다. 때문에 이러한 오차를 줄이기 위해 한 번도 사용해본 적 없는 test set을 사용하여 최종 모델의 성능을 측정하게 된니다.

실제 모델의 사용
Training set으로 모델들을 만든 뒤, validation set으로 최종 모델을 선택하게 됩니다. 실제 사용하기 전에는 쪼개서 사용하였던 training set, validation set, test set 을 모두 합쳐 다시 모델을 training 하여 최종 모델을 만듭니다. 기존 training set만을 사용하였던 모델의 파라미터와 구조는 그대로 사용하지만, 전체 데이터를 사용하여 다시 학습시킴으로써 모델이 조금 더 튜닝되도록 만듭니다.

profile
안녕하세요!!

0개의 댓글