Agent

msgo·2025년 11월 1일

일반적인 AI model을 넘어서 단순 인풋 아웃풋이 아닌 AI가 여러가지를 수행할 수 있는 마치 비서와 같은 형태의 기술이 나타나고 있으며 해당 기술의 역량이 중요해지고 있는 것 같다. 올해 1월 해당 기술에 대한 전반적인 구글의 보고서를 리뷰한다.

AI Agent는 단순한 챗봇이나 자동화 스크립트를 넘어서는 “자율적 실행 단위”로 정의됩니다.
지능적 정보 검색 → 추론 → 의사결정 → 실행까지 이어지는 워크플로우를 수행할 수 있습니다.

Agent란?

Agents are autonomous and can act independently of human intervention,
especially when provided with proper goals or objectives they are meant to achieve. Agents
can also be proactive in their approach to reaching their goals.

즉, Agent는 목표(goal) 를 인식하고, 상황을 관찰(observe) 한 뒤, 계획(plan) 을 세우고, 행동(act) 하며, 결과를 반영(reflect) 하는 일련의 루프를 스스로 수행한다.

Agent와 models

항목	일반 모델	Agent
지식	학습 데이터 한정	외부 데이터 접근 (Tools 사용)
문맥 관리	단일 프롬프트	세션·상태 기반 멀티턴 reasoning
외부 연동	불가능	API·DB·App 등 호출 가능
구조	단일 모델	모델 + 도구 + 오케스트레이션 구조

Agent

ReAct란?
추론과 행동을 결합한 프레임워크, 모델이 문제를 해결하는 과정에서 추론과 행동을 반복적으로 수행한다.

Chain of Thougt란?
문제를 해결할 때, 답변을 바로 도출하지 않고 단계별 추론 과정을 작성하게 만드는 프롬프팅 기법이다.

Tree-of-Thoughts란?
문제를 해결하는 과정에서 여러 가능성을 나무 구조로 분기하여 탐색하는 방법. 다양한 경로를 탐색하고 정확도나 일관성 기준에 따라 최적의 경로를 선택한다. 다양한 해결책이나 전력적 문제 해결에서 유용하다.

Model

의사결정과 추론을 담당하는 언어모델 (ex, gemini, gpt)

Tools

외부 api를 콜링하는 것. 검색, 코드 실행, 이메일 전송, 데이터베이스 조회 등 수행
모델은 본래 외부 세계를 직접 인식하거나 조작할 수 없다.
Tools는 이러한 한계를 해결하는 핵심 구성요소다.
Google은 3가지 대표적인 Tool 타입을 정의한다.

Extensions
실시간 API 호출이 가능한 에이전트-사이드 툴
예: Google Flights, Maps, Gmail 등과 연결

But what happens if the
user says “I want to book a flight to Zurich” and never provides a departure city?

사용자가 어디서부터 출발할지 모르기 때문에 실패한 호출이다., Extension이 올바른 입력 구조를 학습해야 함

Functions
익스텐션과의 차이점은 live api call을 사용하지 않는다. client-side 쪽에서 사용하는 것.

개발자 입장에서 어떻게 데이터가 흘러오게 되는지 선택할 수 있다. API calls 자체가 어플리케이션 스택 자체에서 된다.

Data stores
모델이 참고할 수 있는 외부 문서 저장소 또는 벡터DB
PDF, CSV, Web 등에서 생성된 임베딩을 이용해 RAG (Retrieval-Augmented Generation) 구현
최신 정보에 접근 가능

Orchestration layer

정보를 정리하고 다음 결정을 내는 담당
멀티턴 대화, 상태관리, 행동계획 등을 담당한다.
복잡한 Agent일수록 Chained Logic, Memory, Planning 기능 강화
예: LangChain, LangGraph, Vertex AI Agent Builder 등이 이를 구현

Targeted Learning (도메인 맞춤 학습)

방법	설명	비유
In-context learning	프롬프트 내 예시로 즉석 학습	레시피를 보고 즉석 요리
Retrieval-based ICL	외부 메모리/예시 저장소 참조	저장된 요리책을 꺼내 사용
Fine-tuning	도메인 데이터로 사전 재학습	특정 요리학교에서 전문 훈련

사례

#	사용 사례	핵심 기능	기술적 포인트
1	Enterprise 데이터 검색	멀티모달 검색 (문서·이메일·CRM 등 통합 탐색)	Knowledge Graph + Contextual Retrieval
2	문서 → 팟캐스트 요약	NotebookLM 기반 문서 이해 및 오디오 요약	멀티모달 LLM (텍스트→오디오)
3	아이디어 생성	다중 에이전트 협업으로 1,000개 아이디어 평가	Self-scoring, multi-angle reasoning
4	전문가 상담	Deep Research Agent가 맞춤형 리서치 보고서 생성	Plan + Search + Synthesis 자동화
5	고객경험 개인화	다중 에이전트가 고객 문의 대응, 인사이트 생성	Conversational Agents + Insight Dashboard
6	마케팅 캠페인 최적화	데이터 분석 + 콘텐츠 생성 + 성과 보고	Data Connector + Brand Voice Generation
7	영업 사이클 단축	고객 히스토리, 리드 분석, CRM 자동화	Contextual Memory + Workflow Agent
8	버그 탐색 및 코드 개선	코드 리딩, 로그 분석, 재사용 코드 제안	Gemini Code Assist + Repository Mining
9	HR 온보딩 자동화	계약/문서 관리, 설문 분석, 직원 피드백	Workflow Automation + Sentiment Analysis
10	직접 AI Agent 만들기	Agent Gallery & Designer & Builder	No-code → Vertex AI Agent Builder

출처
https://discuss.pytorch.kr/t/google-ai-agents-pdf-42p/5788/1
https://modulabs.co.kr/blog/agent-whitepapers-google
https://www.youtube.com/watch?v=HujQhD8J2LQ

msgo

이전 포스트

네트워크 스터디 5주차

다음 포스트

Agent

Agent란?

Agent와 models

Agent

Model

Tools

Orchestration layer

Targeted Learning (도메인 맞춤 학습)

네트워크 스터디 5주차

네트워크 스터디 6주차

0개의 댓글