AI가이드북 : AI의 발전과 AGI

성율·2024년 10월 9일

AIGuideBook

목록 보기
3/5

블로그 내용에 관해 수정할 사항이나 논의할 사항이 있다면 언제든 연락 부탁드립니다.

LinkedIn : devyulbae
Email : devyulbae@gmail.com





이번에는 AI의 발전 방향성과 산업 응용분야에 대해서 이야기를 해보겠습니다.

목차
1. AI의 발전 방향성
2. AGI
3. LMM - Multimodal

  1. AI의 발전 방향성

인공지능은 2020년대에 들어 급격히 발전하며 다양한 상황에 적용할 수 있는 유연성을 보여주고 있습니다. AI는 여러 산업 분야에서 도입되어 작업 효율을 크게 향상시켰습니다. 하지만, 그 과정에서 '일반화의 어려움'도 겪고 있습니다. 더 많은 데이터를 사용해 복잡한 AI 모델을 학습시키면 성능이 좋아지지만, 그만큼 비용과 자원이 많이 소모됩니다.
이러한 이유로 AI 연구는 성능을 극대화하는 모델과, 비용을 절감하면서도 효과적인 모델을 모두 추구하고 있습니다.

AI의 발전 방향은 크게 두 가지로 나뉩니다.
하나는 AGI(Artificial General Intelligence), 즉 인간처럼 다양한 문제를 해결하고 새로운 상황에도 적응할 수 있는 범용 인공지능입니다. AGI는 아직 구현되지 않았지만, 그 목표는 인간의 지능을 모방하는 것입니다.
다른 하나는 Narrow AI, 즉 특정한 작업에 특화된 인공지능입니다. 이 AI는 이미 산업에서 사용되고 있으며, 각 분야에서 최적화된 방식으로 작동합니다. 예를 들어, 음성 인식, 이미지 분류, 추천 시스템과 같은 기술들은 Narrow AI의 대표적인 사례입니다.

이번 글에서는 AGI에 대해 중점적으로 설명드리고, Narrow AI는 다음 글에서 자세히 다루도록 하겠습니다.

  1. AGI

AGI(Artificial General Intelligence)는 아직 실현되지 않았습니다. 그 이유는 AGI가 목표로 하는 것이 '인간 수준의 종합적인 지능'이기 때문입니다. AGI는 범용적인 문제 해결, 스스로 학습하는 능력, 상황을 이해하고 추론하는 능력, 그리고 복잡한 의사 결정을 포함한 다양한 능력을 갖추어야 합니다.

그러나 현재 AGI가 실현되지 않은 가장 큰 이유는 인공 신경망의 한계 때문입니다. AI는 특정 작업에 특화된 능력을 잘 수행하지만, 인간처럼 새로운 문제에 자율적으로 적응하는 것은 어렵습니다.

먼저 연산 능력에 대해서, 현재 사용되고 있는 ChatGPT-4는 파라미터의 개수가 공개되지 않았지만, 수조 개의 파라미터를 가진 것으로 추정되고 있습니다. 인간은 출생 후 36개월까지 뇌세포가 약 1000억 개까지 증가했다가, 성장하면서 약 860억 개로 줄어듭니다. 그럼 ChatGPT가 사람보다 더 많은 연산 능력을 가진걸까요?

중요한 것은 구조입니다.
ChatGPT 같은 AI 모델은 층(layer)이라는 구조에서 데이터를 처리합니다. 각 층에는 수많은 파라미터(매개변수)가 있는데, 이 파라미터들은 데이터를 처리하는 중요한 역할을 합니다. AI가 학습하는 과정은 수학적 연산을 통해 정해진 방식으로 이루어집니다. 이 과정은 정적이어서, 모델이 새로운 상황에 자율적으로 적응하는 것은 쉽지 않습니다.

반면에, 인간의 뇌는 감정과 의식 같은 복합적인 요소가 의사 결정에 관여하며, 뇌세포(뉴런)는 매우 복잡하고 입체적인 구조로 연결되어 있습니다. 시냅스는 새로운 경험을 통해 변화하거나 새로운 연결을 만들어냅니다. 이러한 동적인 구조 덕분에 인간의 사고는 매우 유연하고 창의적입니다.

이와 달리, AI 모델은 정해진 방식으로 데이터를 처리하기 때문에, 인간처럼 복잡한 사고나 유연한 의사 결정을 내리는 데 한계가 있습니다. AGI가 인간처럼 작동하기 위해서는 더 많은 연구와 발전이 필요합니다.

반면에, 사람의 뇌는 의사 결정에 감정이나 의식 같은 복합적인 요소가 관여하며, 각각의 뇌세포가 입체적인 구조로 분포되고 연결되어 있습니다. 또한 시냅스는 전두엽의 판단 아래에 단절되거나 생성되기도 합니다. 이러한 동적인 구조는 연산 능력이 압도적으로 높은 AI도 이루어내지 못한 인간 만의 복잡한 사고방식을 만들어낸 것이죠.따라서 AGI에 도달하기 위해서는 구조적인 연구가 이루어 져야 합니다.

AI는 아직 텍스트 외의 데이터를 제대로 다루지 못합니다. 또한, 지금까지는 AI 모델의 Output 형식이 수치형 또는 text형식으로 제한되어 있었습니다. 딱, 생성형AI가 등장하기 전까지는 말이죠.

생성형 AI가 등장하면, 우리는 기존의 numeric, text 타입의 데이터 뿐만 아니라 image, sound, video 같은 타입의 데이터도 학습시키고 만들어낼 수 있게 되었습니다. 그에 따라서, 다양한 형식의 데이터를 입력받고 출력하는 MultiModal 이라는 개념이 등장하게 됩니다.

  1. LMM - MultiModal

멀티모달(Multimodal) AI텍스트, 이미지, 음성, 비디오 등 다양한 데이터를 동시에 처리할 수 있는 인공지능입니다. 이는 인간이 시각, 청각, 촉각 같은 여러 감각을 한 번에 사용하는 방식을 모방한 것입니다.
멀티모달 AI는 서로 다른 유형의 데이터를 결합해 이해하고, 새로운 결과를 도출할 수 있습니다. 예를 들어, 텍스트로 설명을 입력하고, 그 설명을 바탕으로 이미지를 생성하는 것이 가능해집니다.
텍스트로 이미지를 생성하는 것이 대표적인 예시입니다.
또한, Large MultiModal Model은 다중작업도 수행할 수 있습니다.
LMM은 AGI를 위해 가장 중요한 발전 중 하나로, 앞으로 활발히 연구되고 발전될 분야입니다.
LMM을 응용한 대표적인 모델은 이미지를 생성하는 DALL·E, 음성-텍스트 변환을 해주는 Whisper, 그리고 text-to-video 모델인 SORA 등이 있습니다.

Next Step

이제 다음 글에서 Narrow AI가 무엇이고, 산업에 어떻게 적용되고 있는지 살펴보겠습니다.

profile
Interested In: Data, Statistics, AI(NLP, LLM, LMM)

0개의 댓글