AI Agent

현서·2025년 9월 8일

AI Agent

목록 보기
1/8
post-thumbnail

1. AI Agent

  • 환경으로부터 정보를 지각(Perception)하고, 주어진 목표를 달성하기 위해 의사결정(Decision Making)을 거쳐 적절한 행동(Action)을 수행하는 지능형 주체이다.

  • 단순히 입력에 반응하는 프로그램과 달리, AI Agent는 데이터와 경험을 바탕으로 학습하며 상황에 맞게 적응할 수 있다.

  • 텍스트·이미지·음성 등을 동시에 이해하는 멀티모달 모델, 외부 지식을 검색해 활용하는 RAG 구조, 다양한 도구와 시스템과 연결해 실행 능력을 확장하는 MCP 같은 기술이 결합되어 더욱 강력한 에이전트로 발전한다.

  • AI Agent는 환경과 상호작용하며 목표를 수행하는 인공지능 시스템의 핵심 개념이라고 할 수 있다.

1-1. RAG

RAG(Retrieval-Augmented Generation)

  • 생성형 AI가 외부 지식을 검색해 활용하는 방식으로, 단순히 모델 파라미터에 저장된 정보만으로 답변하지 않고, 관련 문서를 검색(Retrieval)한 뒤 이를 입력 맥락에 포함시켜 답변을 생성(Generation)한다.

  • 모델이 최신 정보나 도메인 특화 지식을 활용할 수 있게 해주며, 환각(hallucination)을 줄이고 신뢰도를 높인다.
    ex) 고객 지원, 법률 문서 검색, 논문 요약 등에서는 내부 데이터베이스에서 필요한 정보를 불러온 후 답변을 생성하는 형태로 적용된다.

1-2. MCP

MCP(Model Context Protocol)

  • AI 에이전트가 외부 도구, 서비스, 데이터베이스와 표준화된 방식으로 연결되도록 설계된 프로토콜이다.

  • 기존에는 각 도구와 개별적으로 API를 맞춰야 했다면, MCP는 공통된 인터페이스를 제공해 에이전트가 다양한 리소스를 쉽게 호출하고 응답을 이해할 수 있게 한다.

  • RAG나 LangGraph 같은 프레임워크와 결합할 때, 문서 검색·DB 질의·외부 애플리케이션 실행 등을 일관된 구조로 처리할 수 있으며, 에이전트 개발자가 복잡한 연동 코드를 직접 작성하지 않아도 확장성과 재사용성을 확보할 수 있다.


2. AI Agent의 대표적 사례

1. 로봇청소기 (iRobot Roomba 등)

  • 집 안 구조를 센서와 카메라로 인식(지각) → 이동 경로를 계획(의사결정) → 청소 수행(행동).
  • 단순한 반응형에서 이제는 집 구조를 학습해 점점 "똑똑해진" 에이전트.

2. 자율주행 자동차 (Tesla Autopilot, Waymo)

  • 카메라·라이다 등 센서 데이터로 환경 인식 → 교통 상황에 맞는 주행 판단 → 가속, 감속, 조향 실행.
  • 복잡한 멀티모달 지각과 강화학습 기반 의사결정의 집약체.

3. 스마트 스피커 (Amazon Alexa, Google Assistant, Naver Clova)

  • 음성 입력을 통해 사용자의 요청을 인식(지각) → 의도를 분석(의사결정) → 음악 재생, 날씨 안내, IoT 제어 등 실행(행동).
  • 단순 질의응답을 넘어 외부 API와 연결되는 MCP 기반 Agent로 발전 중.

4. 금융 트레이딩 에이전트 (로보어드바이저)

  • 시장 데이터를 실시간 분석(지각) → 투자 전략 수립(의사결정) → 매수·매도 주문 실행(행동).
  • 예: 미국의 Wealthfront, 한국의 NH투자증권 "QV 로보어드바이저".

5. 게임 AI (AlphaGo, OpenAI Five, StarCraft II AlphaStar)

  • AlphaGo: 바둑판 상태 인식 → 수 선택 의사결정 → 착수 행동.
  • OpenAI Five: 도타2 같은 팀 기반 게임에서 인간과 협력/경쟁하며 전략 실행.
  • 사람을 뛰어넘는 성능으로 AI Agent의 강력함을 보여준 사례.

3. AI Agent 대표 프레임워크


4. 워크 플로우 (Workflow)

  • 어떤 작업을 달성하기 위해 사람이든 시스템이든 따라야 하는 단계적 절차나 흐름을 뜻한다.

  • 업무나 AI 같은 기술 분야에서는 데이터를 입력받아 → 처리하고 → 결과를 내기까지의 과정이 여러 단계로 나뉘는데, 이 일련의 단계를 체계적으로 정의하고 자동화해 연결한 것이 워크플로우이다.

  • 목표를 이루기 위해 “무엇을, 어떤 순서로, 어떤 도구를 통해 실행할지”를 시각적으로 표현한 설계도이자 실행 계획이다.

4-1. n8n

  • 오픈소스 워크플로우 자동화 도구로, 프로그래밍 지식이 많지 않아도 블록(노드)을 이어 붙여 다양한 서비스와 AI 모델을 연결할 수 있게 해준다.

  • Zapier 같은 상용 툴과 유사하지만, 자체 서버에 설치해 보안과 커스터마이징에서 더 자유롭다는 장점이 있다.

  • 이메일, 데이터베이스, Slack 같은 협업 도구뿐 아니라 OpenAI·HuggingFace 같은 AI API와도 쉽게 연동할 수 있어, 데이터 수집 → 전처리 → AI 호출 → 결과 전달 같은 파이프라인을 자동화하는 데 널리 활용된다.

  • n8n은 AI 워크플로우와 비즈니스 자동화를 빠르게 시각적으로 구성할 수 있는 레고 블록 같은 플랫폼이라고 할 수 있다.

4-2. RAG 워크플로우

RAG(Retrieval-Augmented Generation)는 대규모 언어모델(LLM)이 답변을 만들 때, 외부 데이터베이스나 문서 저장소에서 관련 정보를 검색(Retrieval)해 이를 입력에 포함시킨 뒤 답변을 생성(Generation)하는 방식이다.
이렇게 하면 모델이 학습 시점 이후의 최신 지식이나 내부에 없는 도메인 정보를 활용할 수 있어, 환각(hallucination)을 줄이고 신뢰도 높은 결과를 제공한다.

RAG 워크플로우는 질문을 입력받은 뒤 → 쿼리를 벡터로 변환해 벡터DB에서 관련 문서를 검색(Retrieval)하고 → 이를 컨텍스트로 합쳐 LLM이 답변을 생성(Generation)하는 단일 경로의 직선형 파이프라인이다.

검색과 생성이 고정된 순서로 연결되어 있어 빠르고 단순하며, FAQ나 사내 문서 QA처럼 명확한 질문-답변 작업에 적합하다.

4-3. 에이전틱 RAG 워크플로우

  • 기본 RAG 흐름 위에 에이전트의 자율성을 추가해, 질문을 분석하고 필요할 때만 검색하거나, 쿼리를 재작성해 여러 번 검색하며, 검색 결과를 평가·반성 후 재시도하는 다단계·반복형 파이프라인이다.

  • LLM이 언제 검색할지, 어떤 도구를 쓸지, 어떻게 답변을 다듬을지까지 스스로 결정하므로 복잡한 리서치, 멀티홉 질의, 장기 과제에 더 강력하다.


멀티홉 질의 (Multi-hop Query)

단일 질문에 답하기 위해 여러 개의 정보 조각(문서, 문단, 사실)을 순차적으로 연결해 추론해야 하는 질문을 말한다.

단일 홉(Single-hop): 질문 → 하나의 문서/사실만 찾아도 바로 답 가능.
멀티 홉(Multi-hop): 여러 정보원을 찾아 순차적으로 이어야 답할 수 있음.

profile
The light shines in the darkness.

0개의 댓글