📚 참고 자료 : OpenAI blog
- Computer-Using Agent (CUA): https://openai.com/index/computer-using-agent/
- Operator : https://openai.com/index/introducing-operator/
Youtube 소개 영상: Introduction to Operator & Agents
Computer-Using Agent(CUA)는 OpenAI에서 새롭게 출시한 에이전트로, 사람처럼 컴퓨터를 조작할 수 있는 기능을 제공합니다.
CUA는 단순한 작업에서부터 복잡한 다단계 작업까지 처리할 수 있는 범용성을 자랑합니다.
특히, Operator와 함께 제공됨으로써, "CUA는 단순한 자동화 도구를 넘어서는 '디지털 조수(digital agent)'로 자리 잡을 것"이라고 설명합니다.
Operator 화면 (출처: https://operator.chatgpt.com/)
개인적으로 Computer-Using Agent (CUA)
와 Operator
의 정의가 모호한 것 같아서 한번 정리해보았습니다:
각각 Computer-Using Agent (CUA)
와 Operator
의 개념을 좀 더 면밀하게 파악해보겠습니다.
💻 Computer-Using Agent (CUA)
- 정의:
- Computer-Using Agent(CUA)는 "그래픽 사용자 인터페이스(GUI)를 직접 조작할 수 있도록 설계된 AI 에이전트"입니다.
- 화면의 픽셀 데이터를 이해하고, 마우스 클릭, 키보드 입력, 스크롤 등 사용자가 화면과 상호작용하는 방식 그대로 작업을 수행합니다.
- 주요 특징:
- 시각 및 상호작용 능력: CUA는 화면을 "보고" 이해하며, 이를 바탕으로 작업을 수행합니다.
- 강화학습 기반: 고급 추론 능력과 Chain-of-Thought 방식을 활용하여 복잡한 작업 흐름도 처리할 수 있습니다.
- 독립적 작업 수행: API에 의존하지 않고, 인간처럼 디지털 인터페이스를 다룰 수 있습니다.
- 사용 범위:
- CUA는 특정 플랫폼에 제한되지 않고, 일반적인 디지털 환경에서 다양하게 활용됩니다.
- 예를 들어, 웹 검색, 데이터 입력, 화면 상호작용 등을 통해 인간의 작업을 대체하거나 보완합니다.
⚙️ Operator
- 정의:
- Operator는 CUA의 기능을 사용자 친화적으로 구현한 OpenAI의 상위 레벨 에이전트입니다.
- Operator는 사용자와 직접 상호작용하며, 자연어 명령을 통해 CUA의 작업을 조율하고 결과를 제공합니다.
- 주요 특징:
- 직관적인 인터페이스: 사용자는 자연어로 작업을 요청하며, Operator는 이를 해석해 CUA가 실행할 수 있도록 처리합니다.
- 안전 및 제어: 민감한 작업(예: 로그인, 결제)에서는 사용자 개입을 요청해 작업의 신뢰성을 보장합니다.
- 개인화 가능: 특정 웹사이트나 작업에 맞는 맞춤형 지시를 저장해 반복 작업 시 효율성을 높입니다.
- 데모 및 확장성: 사용자 워크플로우를 최적화할 수 있도록 설계되었으며, API를 통해 타 시스템과 통합 가능합니다.
- 사용 사례:
- Operator는 CUA를 기반으로, 사용자가 필요로 하는 작업을 직관적으로 처리하며, 복잡한 프로세스도 간단한 명령으로 해결합니다.
- 예: 호텔 예약, 쇼핑, 데이터 입력, 작업 자동화 등.
차이점
구분 | Computer-Using Agent (CUA) | Operator |
---|---|---|
주요 역할 | GUI를 조작하며 작업을 수행하는 AI 시스템 | 사용자와 상호작용하며, CUA의 기능을 활용해 작업을 관리하고 처리 |
접근 방식 | 강화학습 기반의 추론 능력을 통해 독립적으로 작업 수행 | 사용자 친화적 인터페이스로 작업 요청을 처리하고 결과를 제공 |
사용 범위 | 특정 작업 수행보다는 범용적인 에이전트 프레임워크 제공 | 웹 브라우저 및 GUI 상의 구체적 작업을 실시간으로 처리 |
안전 장치 | 내부적인 추론 과정을 통해 작업의 적합성을 판단 | 사용자 개입을 요청하거나, 작업 승인 요청을 통해 민감한 정보 보호 |
적용 사례 | 연구 개발 및 API 통합을 통한 고급 에이전트 구현 | 웹 기반 자동화 작업(호텔 예약, 쇼핑 리스트 관리, 공공 서비스 이용 등) |
확장성 | API를 통해 다양한 개발자 및 시스템에 통합 가능 | 사용자 맞춤형 설정 및 다중 작업 관리 기능 제공 |
CUA는 화면의 픽셀 데이터를 이해하고 가상 마우스와 키보드를 사용해 작업을 수행합니다.
CUA Diagram (출처: https://openai.com/index/computer-using-agent/)
사용자가 작업을 요청하면 CUA는 다음과 같은 반복적인 루프를 통해 이를 수행합니다:
Perception (지각):
Reasoning (추론):
Action (행동):
CUA는 이러한 과정을 통해 복잡한 문제를 체계적으로 해결하며, Operator는 이러한 CUA의 작동 방식을 직관적으로 활용할 수 있도록 지원합니다:
아래는 Operator에서 몇가지 usage scenario들을 정의해서 sample로 보여주고 있는 것을 확인할 수 있는 그림입니다.
웹에서 수행할 수 있는 웬만한 기능들은 Operator를 통해 작업을 수행해볼 수 있는 것을 확인할 수 있습니다. (ex. 주문, 예약, 쇼핑 등)
사용자는 Operator를 통해 단순히 자연어로 작업을 지시할 수 있으며, CUA는 해당 지시에 따라 필요한 작업을 수행합니다.
Operator는 작업 진행 상황을 시각적으로 표시하며, 사용자가 필요시 개입하여 작업을 조정할 수 있도록 돕습니다.
Agent는 단순히 주어진 명령을 실행하는 도구를 넘어, 사용자가 목표를 설정하면 해당 목표를 달성하기 위한 모든 세부 단계를 스스로 계획하고 실행하는 AI 시스템을 의미합니다. 이는 인간의 조력을 최소화하면서도 정확성과 효율성을 극대화합니다.
Operator는 이러한 Agent 중에서도 특히 웹 브라우저를 활용한 작업을 전문으로 하며, 사용자가 상호작용하는 그래픽 인터페이스를 직접 다루는 점에서 기존의 AI와 차별화됩니다. 이로 인해 API나 정해진 프로토콜 없이도 대부분의 디지털 환경에서 작업이 가능합니다.
Operator의 주요 특징은 다음과 같습니다:
자율성:
유연성:
확장 가능성:
Agent와 Operator는 사용자의 디지털 경험을 한층 더 향상시키기 위한 도구로 설계되었습니다.
Operator는 실제 활용 사례를 통해 다양한 작업에서 AI의 효율성과 정확성을 입증했습니다.
참고 영상 링크:
아래는 데모 영상에서 소개된 주요 사례들입니다:
Custom Instructions 활용
Instacart를 이용한 장보기
사용자가 특정 레시피를 요청하면, Operator는 해당 레시피를 검색한 후 필요한 재료를 Instacart 장바구니에 추가합니다.
사용자는 제외할 항목을 미리 명시할 수도 있으며, 작업 중간에 Operator가 확인을 요청합니다.
또한 Take Control이라는 기능을 통해, 사용자는 작업의 중요한 순간에 직접 개입하여 민감한 정보를 입력하거나 세부사항을 수정할 수 있습니다. 해당 데모에서는 제품 수량 추가하는 것을 시연으로 보여줍니다. (+adding eggs)
추가적으로 Take Control 시에는 실제 브라우저에서 사람이 검색/입력하는 방식처럼 사용됩니다.
OpenTable로 예약하기
Prompt
: Book me a table for 2 person at Beretta tonight at 7PM.Confirmation
작업 전에 확인을 요청하고, 이를 수락 혹은 거절할 수 있습니다.이와 같은 사례는 Operator가 단순한 작업 자동화를 넘어 사용자 경험을 개인화하고, 반복 작업의 효율성을 극대화할 수 있음을 보여줍니다. 작업 진행 상황은 시각적으로 표시되며, 사용자는 언제든 작업에 개입하거나 수정할 수 있습니다.
CUA는 여러 벤치마크에서 이전 최고 성능(State-of-the-Art, SOTA)을 갱신하며 뛰어난 성능을 입증했습니다.
이를 통해 다양한 디지털 환경에서 작업을 수행할 수 있는 능력을 검증받았습니다.
1. OSWorld (Computer Use)
이 평가에서는 OS 상에서 수행 가능한 다양한 작업이 포함됩니다. 예를 들어, 다음과 같은 작업들이 포함됩니다:
CUA는 기존의 SOTA 대비 높은 점수를 기록하며, 운영 체제 전반의 작업을 수행하는 데 있어 유연성과 성능을 입증했습니다.
👉 Computer use에 대한 CUA의 Inference 결과는 OpenAI블로그에서 확인하실 수 있습니다.
2. WebArena (Browser Use)
이 벤치마크는 다음과 같은 작업 시나리오를 포함합니다:
WebArena는 다양한 웹사이트에서의 상호작용을 요구하며, CUA가 얼마나 잘 화면을 이해하고 명확히 작업을 수행할 수 있는지 평가합니다.
3. WebVoyager (Browser Use)
이 평가에서는 Amazon, GitHub, Google Maps 등 널리 사용되는 웹사이트에서 다음과 같은 작업이 수행됩니다:
WebVoyager는 실제 사용자가 웹에서 수행하는 과업과 유사한 복잡한 작업을 포함하며, CUA의 실제 활용 가능성을 직접적으로 보여줍니다. 특히, 이 벤치마크에서 87%라는 높은 성공률을 기록한 것은 CUA의 정밀한 작업 처리 능력을 나타냅니다.
👉 Browser Use에 대한 CUA의 Inference 결과는 OpenAI블로그에서 확인하실 수 있습니다.
이러한 결과는 CUA가 다양한 환경에서 신뢰할 수 있는 도구로 자리잡을 가능성을 보여줍니다.
Operator를 통해 이러한 성능은 사용자 경험과 결합하여 더욱 강력한 도구로 발전하고 있습니다.
CUA는 사용자의 안전을 최우선으로 고려하여 설계되었습니다.
Operator와 함께 제공되는 Operator System Card는 CUA의 안전 기능을 상세히 설명하며, 주요 위험 요소를 다음 세 가지로 분류하고 있습니다:
Misuse (오용)
Model Mistakes (모델 실수)
Adversarial Attacks (적대적 공격)
CUA는 이중, 삼중 방어 구조를 통해 안전성을 강화하며, 지속적인 피드백과 개선을 통해 더욱 안전한 환경을 제공하고자 합니다.
사용자 확인 시스템과 실시간 모니터링, 그리고 필요시 사용자가 컨트롤을 넘겨받을 수 있는 기능은 Operator와 CUA가 안전하게 작업을 수행할 수 있도록 지원합니다.
Operator와 CUA는 디지털 작업 자동화의 새로운 패러다임을 제시하며, 앞으로도 지속적으로 개선되고 확장될 예정입니다.
개발자 지원:
확장된 접근성:
고도화된 기능:
API는 어떤식으로 제공해줄지 궁금하군요 ( •͈ ◦ •͈ )
CUA는 멀티모달 이해, 추론, 안전성 측면에서 획기적인 발전을 이룬 에이전트입니다. API에 의존하지 않고도 사람이 사용하는 것과 동일한 인터페이스를 통해 다양한 디지털 환경에 적응할 수 있는 유연성을 제공합니다. 이는 AI가 인간과 함께 작업하며 생산성과 창의성을 극대화할 수 있는 새로운 가능성을 열어줍니다.
현재 Operator를 통해 미국의 Pro Tier 사용자들에게 연구 프리뷰 형태로 제공되며, 사용자의 피드백을 통해 지속적으로 개선될 예정입니다. OpenAI는 CUA가 다양한 디지털 작업의 "롱테일"을 해결하는 데 중요한 도구가 될 것이라 믿습니다. 향후 CUA는 더욱 다양한 작업 환경과 복잡한 문제를 해결하며, AI 기술의 새로운 기준을 제시할 것입니다.
Operator는 단순한 작업 도구가 아니라, 사용자의 디지털 환경을 더욱 편리하고 안전하게 만드는 "파트너"로 자리 잡고 있습니다. OpenAI는 Operator와 CUA를 통해 디지털 작업의 미래를 열어가며, AI가 사용자와 함께 성장하는 새로운 패러다임을 제시하고자 합니다.