AI 개발자를 위해 회사에서 공부하면서 같이 정리해본 내용👍
AI는 Artificial Intelligence의 약자로 번역하면 인공지능이다.
인공지능은 컴퓨터가 사람처럼 학습하면서 문제를 해결할 수 있는 기술을 말한다.
이 AI는 주로 데이터를 분석하고, 패턴을 찾아내며, 이를 바탕으로 결정을 내리거나 예측하는데 사용된다.
AI가 다루는 데이터는 형태에 따라 크게 2가지로 분류된다.
행/열로 구성된 데이터베이스 형식의 체계적인 데이터로, 이 데이터는 고정된 구조를 가지고 있어서 쉽게 저장, 검색, 분석이 가능하다. 머신러닝을 훈련할 EO 이런 데이터를 사용해 분류, 예측, 통계 분석 등을 할 수 있다.
정해진 형식이 없는 데이터로, 규칙성이 없는 텍스트, 사진, 동영상, 음성 파일 등이 해당된다. 여기서 텍스트라는 구조화되지 않은 데이터는 자연어 처리(NLP) 기술을 통해 문장을 이해할 수 있도록 처리한다. 이외의 비정형 데이터는 딥러닝을 통해 처리 할 수 있다.
데이터를 학습하여 모델을 만들고, 이 모델을 사용하여 예측을 수행하는 기술로 사람이 데이터를 제공하면, 그 데이터를 기반으로 패턴을 학습한다. 그리고 새로운 데이터가 들어왔을 때 이전 학습한 내용을 기반으로 예측과 결정을 할 수 있다.
딥러닝은 머신러닝의 한 분야로 인공신경망을 사용하여 데이터를 학습하는 방식이다. 딥러닝은 데이터에서 특징을 자동으로 추출하는 특징이 있다. 사람이 데이터를 미리 제공해주지 않아도, 딥러닝 모델은 데이터를 스스로 분석하고 학습한다. 특히 이미지, 음성, 텍스트와 같은 비정형 데이터를 처리하는데 강력한 모습을 보여준다.
주로 대규모 텍스트 데이터를 학습하여 언어 이해와 생성을 목표로 하는 AI다. LLM에 비해 작은 규모의 텍스트 데이터를 처리하는 모델은 sLLM이라고 한다. 언어 모델에서 중요한 것은 컴퓨터가 얼마나 인간의 말을 잘 이해하고 생성할 수 있도록 하는 것인데, 이를 자연어처리(NLP)라고 한다.
이미지나 비디오 데이터를 처리하고 인식하는 AI이다.
음성 데이터를 분석하거나 생성하는 AI이다.
자연어 처리에 특화된 GPT 시리즈의 하나로, 사람과 대화하는 데 중점을 둔 AI모델이다. 대규모 데이터를 학습하여 자연스러운 대화와 창의적인 텍스트 생성을 지원한다.
GPT와 유사한 언어 모델로, 구글의 검색, 번역, 다양한 AI 서비스에 통합되어 연계 활용을 할 수 있도록 할 예정이다.
구글의 AI 대화 모델로, 구글의 검색 기능과 결합되어 있기 때문에 실시간 데이터 검색과 최신 정보 제공에 강점이 있다.
AI 안정성에 중점을 둔 자연어 처리 모델로, GPT와 유사한 기능을 제공하며, 사용자의 지시에 잘 반응하도록 설계되었다.
효율성을 목표로 설계된 경량 AI 언어 모델로 대규모 데이터셋 없이도 상대적으로 좋은 성능을 발휘하도록 최적화 되어있다. 연구와 상용 목적으로 다양한 자연어 처리 작업에 활용된다.
AI 모델이 외부 정보 소스를 활용하거나 더 정확한 답변을 생성할 수 있도록 하는 기술이다. 대규모 언어 모델(LLM)이 자체적으로 학습한 데이터뿐만 아니라, 외부에서 실시간으로 검색한 정보와 특정 데이터베이스에서 가져온 데이터를 결합하여 응답을 생성하는 방식이다.
때문에 RAG의 장점은 최신 정보를 반영할 수 있고, 신뢰할 수 있는 답변을 제공한다. 또한 특정 데이터베이스에서 정보를 가져올 수 있기 때문에 맞춤형 응답을 제공할 수 있다.
이 기술을 이용하면 복잡한 코딩 없이도 AI가 외부의 실시간 데이터나 특정 데이터베이스를 이용하여 쉽게 응답할 수 있다.