[23/12/30] 생성형 AI에 대한 이해

이카루스·2023년 12월 30일
0

읽을거리

목록 보기
20/29

1장. 생성형 AI는 무엇인가?

1. 생성형 AI란?

과거 체스 특화 인공지능 프로그램을 개발했던 IBM은 생성형 AI를 ‘학습된 데이터를 기반으로 고품질의 텍스트, 이미지 및 기타 콘텐츠를 생성할 수 있는 딥러닝 모델’로 정의했다. AI 반도체 시장에서 큰 점유율을 차지하는 엔비디아는 생성형 AI를 ‘다양한 입력으로 새로운 콘텐츠를 출력하는 도구’로 설명했다. 경영 컨설팅 회사인 맥킨지&컴퍼니의 경우 ‘음성, 프로그래밍 코드, 이미지, 텍스트, 시뮬레이션, 영상 등 새로운 콘텐츠를 만드는 데 사용할 수 있는 알고리즘’으로 정의했다. 텍스트 생성형AI 서비스인 바드(Bard)를 출시한 구글은 ‘사람이 만든 콘텐츠의 데이터 세트에서 패턴과 관계를 학습하여 새로운 콘텐츠를 만드는 것’이라 정의했다. 생성형 AI에 대해 기업마다 생각하는 바는 조금씩 다르지만, 공통으로 말하는 내용은 기존 데이터를 통해 새로운 콘텐츠를 생성한다는 점이다.
생성형 AI는 기계가 능동적으로 새로운 결과를 창출하는 인공지능 기술로 인간의 창조물과 유사한 이미지, 음악, 텍스트, 비디오와 같은 콘텐츠의 생성을 목표로 한다. 해당 인공지능은 이미지 인식이나 언어 번역과 같은 특정 작업을 위해 구축된 기존 시스템과 다르게 정보를 조합하거나 해석하여 새로운 결과를 생성한다. 이런 과정을 통해 AI는 이제 사람이 물어보지 않은 질문에 대한 답을 제공하거나, 아직 존재하지 않는 내용을 창조할 수 있다.
이러한 기능은 기업 경영에도 다양하게 사용된다. 고객의 선호나 트렌드를 기반으로 새로운 상품 디자인이나 특징을 제안할 수 있다. 예시로 패션 산업에서 고객들의 선호 스타일을 기반으로 새로운 의류 디자인을 도출하는 데 사용할 수 있다. 또한 개별 고객의 선호나 행동 패턴을 분석하여 맞춤형 광고나 콘텐츠를 생성하여 효율적인 마케팅 전략을 구현할 수 있다. 기업 외부 활동뿐만 아니라 일일, 주간, 월간 보고서나 회의 같은 내부 활동에도 보고서나 발표 자료 제작에 사용하거나 과거 데이터를 기반으로 새로운 경영 전략을 도출하는 데 사용할 수 있다.
미국의 전문가 커뮤니티인 Fishbowl에서 2023년 진행한 설문조사의 결과에 따르면 전문가 4,500명 중 약 30%가 Chat-GPT, Bard를 비롯한 생성형 AI를 사용한 것으로 집계되었다. 이러한 추세는 한국에서도 마찬가지로 나우앤서베이에서 2023년 6월에 조사한 바에 따르면 직장인의 70% 이상이 생성형 AI 기술을 사용한 경험이 있는 것으로 집계되었다. Chat-GPT가 등장한 이후, 우리 주변에서 생성형 AI의 사용이 급격하게 증가했음을 알 수 있다.

2. 다양한 분야의 생성형 AI

1) 문서

텍스트 생성은 AI 기술이 가장 빠르게 연구되는 분야이다. 전기 신호를 기반으로 작동되는 컴퓨터와 프로그램은 인간이 사용하는 다양한 언어를 이해하고 수행하기 위해 일련의 과정이 요구된다. 이러한 과정을 자연어 처리라고 하며 머신러닝을 사용하여 인간이 작성한 텍스트의 구조와 의미를 파악한다. 현재는 자연어 데이터 분석과 인공지능 학습 기술의 발달로 인해 AI의 자연어 처리 능력이 크게 향상되었으며 현재는 다양한 영역의 작문을 수행할 수 있는 수준까지 발전했다. 대표적인 텍스트 생성 AI 서비스로는 OpenAI의 Chat-GPT와 Google의 Bard 등이 있다. 텍스트 생성은 넓은 범위의 분야를 아우를 수 있어 다양한 경영 활동에 사용된다. 지난 4월에 공개된 배스킨라빈스의 광고 영상은 Chat-GPT 가 제작한 시나리오를 기반으로 제작되었으며 국내 최대 퀀트 투자 플랫폼인 ‘젠포트’는 이용자의 종목 분석을 지원하기 위해 신규 서비스로 Chat-GPT를 도입했다.

2) 이미지

AI 기술이 발달한 지금, 예술과 창작이 인간만의 영역이라고는 볼 수 없는 시점에 있다. 특히 2010년대에 미술 분야의 AI는 큰 발전을 이루었다. 이미지 생성에 대한 원시적인 모델인 GAN이 2014년에 처음 제시된 이후 다양한 단체에서 이미지 생성 AI 모델을 개발해 왔다. 본격적으로 등장한 서비스로 OpenAI에서 제작된 Dall-E가 2021년에 일부 대중들에게 공개되었으며 1년 뒤인 2022년에 미드저니(Midjourney)가 출시되었다. 이미지 생성 AI의 존재를 널리 알린 사건인 스페이스 오페라 극장이 미드저니를 사용하여 제작된 이미지이다. 같은 해인 2022년 8월 Stability AI 사에서 제작한 Stable Diffusion이 오픈소스로 공개되면서 보다 많은 사람이 이미지 생성 AI를 접할 수 있게 되었다.

2. 생성형 AI는 어떻게 작동하는가?

1. 대화 생성형 AI

1) 자연어 처리 기술

자연어란 우리가 일상 생활에서 사용하는 언어를 말한다. 자연어 처리란 이러한 자연어의 의미를 분석하여 컴퓨터가 처리할 수 있도록 하는 일을 말한다. 자연어 처리는 음성 인식, 내용 요약, 번역, 사용자의 감성 분석, 텍스트 분류 작업, 질의 응답 시스템과 같은 곳에서 사용되는 분야이다.
가장 기초적인 자연어 처리 모델은 순환 신경망(RNN)이다. 순환 신경망은 시계열 데이터와 같이 시간의 흐름에 따라 변화하는 데이터를 학습하기 위한 것이다. 따라서, 과거의 출력 데이터를 참조하여, 현재 결과가 이전 결과와 연관성을 가진다. 그래서 순환 신경망의 대표적인 예는 글자나 문장을 완성해주는 알고리듬이다. 문장 데이터의 경우 앞 뒤 데이터간의 연관성이 있어서 ‘h,e,l’이 연속된 다음에 나올 글자는 ‘l’일 확률이 크고, 그 다음에 ‘o’가 나올 확률이 급니다. 이렇게 순환 신경망은 앞 뒤 데이터간의 연관성이 있는 데이터셋에 사용되는 모델이다.
하지만, 순환 신경망은 학습하는 정보를 계속 이어나가기 힘들다는 문제점이 있다. 이러한 문제를 해결하기 위해 LSTM이 등장했다.

사진 1 | RNN 구조도

LSTM의 목적은 입력 중 핵심적인 정보를 잊어버리지 않고 뒤로 전달하는 것이다. 순환 신경망 방식의 일종인 LSTM은 입력값과 이전 상태에 따라 값을 업데이트하고, 새로운 상태를 출력하지만, 특별한 점은 셀의 값을 얼마나 기억할지 결정하는 것이 가능한 게이트를 가지고 있어서 필요한 정보만 기억하도록 제어할 수 있다는 것이다. 셀은 연속적 데이터를 저장하고, 게이트는 셀의 상태를 조작한다. LSTM은 input gate, forget gate, output gate 등으로 이루어져 있으며, 각 게이트는 출력값을 결정하는 활성화 함수를 사용한다. 그래서 LSTM은 필요하지 않은 기억은 지우고, 기억해야할 정보를 저장한다.


사진 2 | LSTM 구조도

이전까지의 자연어 처리 모델들은 계산과 공식을 사용한 전통적인 방법의 처리 형태를 가졌다. 딥러닝 분야의 발전에 따라 딥러닝 기술을 자연어 처리에 적용하고자 하였다. 또한 RNN 문장 생성은 출력이 바로 이전 입력까지만 고려하기 때문에 전체 입력 문장을 반영하지 못한다는 문제점이 있었다. 이러한 문제를 해결하기 위해 Seq2Seq(Sequence-to-Sequence)모델이 만들어졌다. Seq2Seq는 하나의 시퀀스에서 다른 시퀀스로 번역하는 방식을 말한다. 즉, ‘시퀀스를 받아들이는 부분’과 ‘시퀀스를 출력하는 부분’을 분리한 것이 특징이다. 시퀀스는 여러 단어로 구성된 하나의 문장을 말한다. 시퀀스는 특정 순서를 가지므로, 독립적이지 않다. Seq2Seq 아키텍처는 입력을 담당하는 인코더와 출력을 담당하는 디코더로 구성되어 있으며 각각 순환 신경망 모델을 이룬다. 인코더는 입력 데이터를 인코딩하고, 디코더는 인코딩된 데이터를 디코딩한다. 예를 들면, 비밀편지를 쓸 때, 원래의 문장을 암호화해서 다른 사람이 쉽게 알아볼 수 없도록 바꾸는 과정이 필요하다. 이 과정이 인코딩이고, 암호화된 것을 다시 원래의 형태로 되돌려 주는 과정을 디코딩이라고 한다.


사진 3 | Seq2Seq 구조도

인코더는 입력된 문장의 모든 단어인 입력 시퀀스(원문)을 받아드여 고정된 크기의 벡터인 컨텍스트 벡터(Context Vector)로 생성하고 디코더로 전송한다. 디코더는 이를 받아 출력 시퀀스(번역문)를 출력한다.
Seq2Seq 모델은 번역, 챗봇에서 높은 성능을 보였다. 하지만 입력 시퀀스의 모든 정보를 컨텍스트 벡터에 다 압축 요약하여 정보의 손실이 생길 수 밖에 없다. 특히 시퀀스의 길이가 길다면 정보의 손실이 더 커진다. 이러한 문제를 해결하기 위해 어텐션(Attention) 아키텍처가 등장했다. 어텐션(Attention) 아키텍처에서는 중요하다고 판단된 단어에 집중하여 디코더로 바로 전달하는 방식을 사용했다. 디코더에서 출력 단어를 예측하는 시점마다 인코더에서 전체 입력 문장을 다시 한번 참고하여 정확성을 더욱 높였다.


사진 4 | 어텐션 구조도

그 뒤 등장한 트랜스포머(Transformer) 아키텍처는 현대의 자연어 처리 네트워크에서 핵심 기술로 작용하며 LSTM이 필요없다. 다만, 어텐션 아키텍처만 사용하여 인코더-디코더를 구현한다. 트랜스포머 모델의 특징은 인코더에서 디코더가 아니라 스스로 언어에 집중을 한다는 점이다. 대표적인 텍스트 생성 AI 서비스인 Chat-GPT는 이 트랜스포머 아키텍처를 기반으로 구성되었다.

2) 강화 학습

강화 학습은 컴퓨터에게 '보상'과 '처벌'을 사용해 학습시키는 방법이다. 좀 더 구체적으로 말하자면, 컴퓨터가 우리가 원하는 작업을 잘 수행하면 '보상'을 주고, 그렇지 않을 때는 '처벌'을 준다. 이 방법을 예로 들면, 강아지에게 사려 깊은 행동을 했을 때 간식을 주는 것과 같다. 강아지는 간식을 받기 위해 좋은 행동을 더 많이 하려고 한다.
이런 학습 방식을 사용해서, 'Chat GPT'라는 AI 모델에게 어떻게 좋은 답변을 만들어야 하는지 가르치려고 한다. 모델이 사용자의 질문에 잘 대답하면 '보상'을 주고, 그렇지 않으면 '처벌'을 준다. 그렇게 되면, 모델은 더 나은 답변을 만들기 위해 노력하게 된다.
그런데, 이 AI 모델이 답변을 만들 때는 특정한 '규칙'이나 '가이드라인'을 따라야 한다. 이 규칙을 '정책'이라고 부른다. 예를 들어, 축구에서 선수들이 규칙을 따라야 하는 것처럼, AI 모델도 이 '정책'을 따라서 답변을 만들어야 한다. 그리고 이 정책을 더 좋게 만들기 위해 'PPO'라는 기술을 사용한다. PPO는 마치 축구팀의 코치가 선수들의 전략을 조정하는 것과 비슷하게, AI 모델의 답변 전략을 조정하여 더 좋은 결과를 얻게 해준다.

profile
Der Schmerz, der mich nicht töten kann, macht mich nur stärker (나를 죽이지 못하는 고통은 나를 더 강하게 만든다)

0개의 댓글