지도학습vs비지도학습vs강화학습(얀 르쿤)

FreeZeeSun·2023년 10월 8일

it용어

목록 보기

2/2

출처 : https://www.sisain.co.kr/news/articleView.html?idxno=32487

지도학습 vs 비지도 학습 vs 강화 학습
도대체 이 분류의 기준은 무엇이고 차이는 무엇일까?

우선, 강화학습

여기 어린아이가 있다.
아이는 태어나서 교육을 받기 시작하는데,
이유를 아무리 설명해주어도 아직 잘 못알아듣는다.

극단적인 예시로,
버릇없이 말하는 아이에게 매를 들고,
아이가 어른의 기준에서 예의바르게 말하면 머리를 쓰다듬으며 칭찬을 드는 보상과 벌칙 행위를 통해 아이는 점점 더 예의 바른 어린이로 성장 할 것이다.
실제 인공지능의 예시를 들자면, 알바고의 훈련방식이 강화학습에 속한다.

굉장히 1차원적인 교육일 수 있다. 답과 오답만 있는 상황이라고 볼수도 있을 것 같다.

지도 학습

우리는 처음보는 문제를 풀기전 개념을 익히고, 예제 문제를 습득한 이후 문제를 푸는 과정으로 학습을 하는 편이다.

이미 어떠한 답을 가진 문제들을 보고, 거기서 규칙을 찾아낸 다음 답이 없는 문제를 맞닥뜨렸을 때, 찾아낸 규칙을 적용해보는것이다.
이렇게 기준이 있으면, 그 기준을 가이드 삼아서 새로운 문제가 주어질 때마다 풀어볼 수 있다.
하지만, 더하기 빼기 나누기 곱하기 만 배운 초등학생에게 갑자기 미적분 문제를 보여주면 당황하고 못 풀 것이다.
왜냐면 배운적이 없기 때문이다. 개념도, 연습문제도 본적이 없기 때문이다.

이는 미리 준비된 데이터로 훈련한 인공지능이 이를 위한 규칙은 스스로 만들었지만(학습), 정답이 달린 자료를 제공하면서 규칙을 형성하게 ‘지도’한 것은 사람이므로, 지도학습이라고 부른다.

비지도 학습

스릴러, 추리 영화에서는 의문의 사건이 있고, 실마리를 전혀 찾을 수 없는 상태로 시작한다. 수많은 증거와 데이터 속에서 범인에 대한 유추나 사건의 경위를 해석하며 답을 찾아내거나 혹은 답을 찾아내지 못하는 줄거리가 허다하다.

또한, 인간은 가르침을 받지 않아도 아는 것들이 있다.
‘3차원 공간을 파악하는 법’ ‘하나의 물건이 한 시점에서 두 공간에 동시에 존재할 수 없다는 것’ ‘어떤 물건을 보고 있는데 누군가 앞을 가려도 그 물건은 그 자리에 그대로 존재한다는 것’ ‘허공으로 던진 물건은 다시 떨어진다’ 따위 개념을 그저 관찰하면서 알게 된다.

인간이 자기도 모르게 학습하는 ‘엄청난 양의 지식’을 ‘상식(common sense)’이라고 부른다. 그 상식의 내용(예컨대 ‘허공으로 던진 물건은 떨어진다’)은 ‘세계의 법칙’ 혹은 ‘세계의 제약’이다. 사람 역시 이런 상식을 태어날 때부터 가진 것은 아니라고, 르쿤은 믿는다. 태어난 뒤 세상을 ‘관찰하면서 자연스럽게 학습’하게 되었다는 것이다.

인공지능의 비지도 학습 또한 이와 비슷하다고 본다.

비지도 학습은 기계학습에서 가장 발전되지 못한 학습 모델이다. 물론 비지도 학습은, ‘정답이 달리지 않은 자료’를 수없이 제시한 뒤 컴퓨터가 알아서 그 자료들의 특성이나 관계를 파악하도록 하는 방식으로 지금도 시행 중이다.

그래서, 어떠한 이유로 어떤 방식으로 답을 찾아냈는지 설명하지 못한다. 답을 영영 못 찾을 수도 있다. 마치 내게는 비지도 학습이 판도라의 상자같아서 (블랙박스라고 표현을 하더라) 세상을 깜짝 놀래킬 답을 줄 수도 있고, 미궁에 빠질 수도 있을 것 같다.

결국, 르쿤의 인사이트는 이러하다.

데이터만 많이 확보할 수 있다면, 지도학습으로 컴퓨터를 훈련시키는 방법이 비지도 학습보다 훨씬 뛰어나다고 한다. 르쿤에 따르면, 인공지능이 현재 수준을 훌쩍 뛰어넘는 방법은 미개척지인 비지도 학습을 개발하는 것 외에 없다.

“만약 지능이 케이크라면 비지도 학습은 케이크의 본체다. 지도학습은 케이크 본체의 겉에 발린 크림(icing)이고, 강화학습은 케이크 위의 체리다. 우리는 크림과 체리를 어떻게 만드는지 안다. 그러나 케이크를 만드는 법은 모른다.”

그는 기계학습을 케이크에 비유했는데,
강화학습은 케이크의 장식이나 과일, 그러니까 있으나마나 한 존재로 여겼고..(체리 좋아하눈데ㅠㅎ)
지도학습은 크림으로 여기면서, 케이크에서 중요하긴하나 메인은 아니라고 여기며.. (난 사실 크림때문에 케이크 먹는다.)
비지도학습이 케이크의 빵, 그러니까 케이크의 정체성이자 핵심이라고 여겼다.

그는 또한, 꽤나 인문학적인 견해도 내놓았는데..
인간은 시간의 흐름을 알지만, 기계는 시간의 흐름을 모른다는 것이다.
인간이 미래를 예측 할 수 있는 것은 과거, 현재, 미래에 대한 지각능력이 있는 것이고 그래서 예측 할 수 있는 것인데, 르쿤은 이 예측하는 능력을 지능의 실체로 본다고 한다.

FreeZeeSun

개발자 지망생. 지금은 삽질의 연속, 하지만 언젠가는 삽질이 아닐 것이기에!

이전 포스트

지도학습vs비지도학습vs강화학습(얀 르쿤)

it용어

우선, 강화학습

지도 학습

비지도 학습

결국, 르쿤의 인사이트는 이러하다.

[it용어] 핀테크

0개의 댓글

관련 채용 정보