일반적인 AI model을 넘어서 단순 인풋 아웃풋이 아닌 AI가 여러가지를 수행할 수 있는 마치 비서와 같은 형태의 기술이 나타나고 있으며 해당 기술의 역량이 중요해지고 있는 것 같다. 올해 1월 해당 기술에 대한 전반적인 구글의 보고서를 리뷰한다.
AI Agent는 단순한 챗봇이나 자동화 스크립트를 넘어서는 “자율적 실행 단위”로 정의됩니다.
지능적 정보 검색 → 추론 → 의사결정 → 실행까지 이어지는 워크플로우를 수행할 수 있습니다.
Agents are autonomous and can act independently of human intervention,
especially when provided with proper goals or objectives they are meant to achieve. Agents
can also be proactive in their approach to reaching their goals.
즉, Agent는 목표(goal) 를 인식하고, 상황을 관찰(observe) 한 뒤, 계획(plan) 을 세우고, 행동(act) 하며, 결과를 반영(reflect) 하는 일련의 루프를 스스로 수행한다.

| 항목 | 일반 모델 | Agent |
|---|---|---|
| 지식 | 학습 데이터 한정 | 외부 데이터 접근 (Tools 사용) |
| 문맥 관리 | 단일 프롬프트 | 세션·상태 기반 멀티턴 reasoning |
| 외부 연동 | 불가능 | API·DB·App 등 호출 가능 |
| 구조 | 단일 모델 | 모델 + 도구 + 오케스트레이션 구조 |
ReAct란?
추론과 행동을 결합한 프레임워크, 모델이 문제를 해결하는 과정에서 추론과 행동을 반복적으로 수행한다.
Chain of Thougt란?
문제를 해결할 때, 답변을 바로 도출하지 않고 단계별 추론 과정을 작성하게 만드는 프롬프팅 기법이다.
Tree-of-Thoughts란?
문제를 해결하는 과정에서 여러 가능성을 나무 구조로 분기하여 탐색하는 방법. 다양한 경로를 탐색하고 정확도나 일관성 기준에 따라 최적의 경로를 선택한다. 다양한 해결책이나 전력적 문제 해결에서 유용하다.
의사결정과 추론을 담당하는 언어모델 (ex, gemini, gpt)
외부 api를 콜링하는 것. 검색, 코드 실행, 이메일 전송, 데이터베이스 조회 등 수행
모델은 본래 외부 세계를 직접 인식하거나 조작할 수 없다.
Tools는 이러한 한계를 해결하는 핵심 구성요소다.
Google은 3가지 대표적인 Tool 타입을 정의한다.
Extensions
실시간 API 호출이 가능한 에이전트-사이드 툴
예: Google Flights, Maps, Gmail 등과 연결

But what happens if the
user says “I want to book a flight to Zurich” and never provides a departure city?
사용자가 어디서부터 출발할지 모르기 때문에 실패한 호출이다., Extension이 올바른 입력 구조를 학습해야 함

Functions
익스텐션과의 차이점은 live api call을 사용하지 않는다. client-side 쪽에서 사용하는 것.

개발자 입장에서 어떻게 데이터가 흘러오게 되는지 선택할 수 있다. API calls 자체가 어플리케이션 스택 자체에서 된다.
Data stores
모델이 참고할 수 있는 외부 문서 저장소 또는 벡터DB
PDF, CSV, Web 등에서 생성된 임베딩을 이용해 RAG (Retrieval-Augmented Generation) 구현
최신 정보에 접근 가능


정보를 정리하고 다음 결정을 내는 담당
멀티턴 대화, 상태관리, 행동계획 등을 담당한다.
복잡한 Agent일수록 Chained Logic, Memory, Planning 기능 강화
예: LangChain, LangGraph, Vertex AI Agent Builder 등이 이를 구현
| 방법 | 설명 | 비유 |
|---|---|---|
| In-context learning | 프롬프트 내 예시로 즉석 학습 | 레시피를 보고 즉석 요리 |
| Retrieval-based ICL | 외부 메모리/예시 저장소 참조 | 저장된 요리책을 꺼내 사용 |
| Fine-tuning | 도메인 데이터로 사전 재학습 | 특정 요리학교에서 전문 훈련 |
사례
| # | 사용 사례 | 핵심 기능 | 기술적 포인트 |
|---|---|---|---|
| 1 | Enterprise 데이터 검색 | 멀티모달 검색 (문서·이메일·CRM 등 통합 탐색) | Knowledge Graph + Contextual Retrieval |
| 2 | 문서 → 팟캐스트 요약 | NotebookLM 기반 문서 이해 및 오디오 요약 | 멀티모달 LLM (텍스트→오디오) |
| 3 | 아이디어 생성 | 다중 에이전트 협업으로 1,000개 아이디어 평가 | Self-scoring, multi-angle reasoning |
| 4 | 전문가 상담 | Deep Research Agent가 맞춤형 리서치 보고서 생성 | Plan + Search + Synthesis 자동화 |
| 5 | 고객경험 개인화 | 다중 에이전트가 고객 문의 대응, 인사이트 생성 | Conversational Agents + Insight Dashboard |
| 6 | 마케팅 캠페인 최적화 | 데이터 분석 + 콘텐츠 생성 + 성과 보고 | Data Connector + Brand Voice Generation |
| 7 | 영업 사이클 단축 | 고객 히스토리, 리드 분석, CRM 자동화 | Contextual Memory + Workflow Agent |
| 8 | 버그 탐색 및 코드 개선 | 코드 리딩, 로그 분석, 재사용 코드 제안 | Gemini Code Assist + Repository Mining |
| 9 | HR 온보딩 자동화 | 계약/문서 관리, 설문 분석, 직원 피드백 | Workflow Automation + Sentiment Analysis |
| 10 | 직접 AI Agent 만들기 | Agent Gallery & Designer & Builder | No-code → Vertex AI Agent Builder |
출처
https://discuss.pytorch.kr/t/google-ai-agents-pdf-42p/5788/1
https://modulabs.co.kr/blog/agent-whitepapers-google
https://www.youtube.com/watch?v=HujQhD8J2LQ