Gemini 2.5 Computer Use는 Google이 Gemini 2.5 Pro의 시각적 이해 및 추론 능력을 기반으로 구축한 전용 모델로, 사용자 인터페이스 제어에 특화되어 있습니다. 구조화된 API를 통한 기존 소프트웨어 상호작용과 달리, 이 모델은 인간처럼 그래픽 사용자 인터페이스와 직접 상호작용할 수 있습니다.
💡 기술적 돌파구
이는 인터페이스 제어 작업에 특화되어 최적화된 최초의 대규모 언어 모델로, AI와 그래픽 인터페이스 상호작용의 중요한 공백을 메웁니다.
Gemini 2.5 Computer Use 모델은 순환적 상호작용 메커니즘을 채택하며, 전체 프로세스는 4개의 핵심 단계로 나뉩니다:
function_call을 포함한 응답 생성function_call을 파싱하고 실행function_response로 모델에 다시 전송
⚠️ 중요 공지
gemini-2.5-computer-use-preview-10-2025모델을 사용해야 합니다. 다른 모델은 Computer Use 도구를 지원하지 않습니다.
Gemini 2.5 Computer Use는 여러 권위 있는 벤치마크에서 뛰어난 성능을 보여줍니다:
| 벤치마크 | Gemini 2.5 Computer Use | 최고 경쟁사 | 성능 향상 |
|---|---|---|---|
| WebArena | 선도적 성능 | - | 현저한 우위 |
| Online-Mind2Web | 높은 정확도 | - | 낮은 지연 시간 우위 |
| Mobile Control | 강력한 성능 | - | 멀티 플랫폼 지원 |
✅ 벤치마크 검증
테스트 결과는 자체 보고 데이터, Browserbase 평가 및 Google 내부 테스트에서 나온 것입니다. 자세한 정보는 공식 평가 문서에서 확인할 수 있습니다.
Gemini 2.5 Computer Use 모델은 일상적인 인터페이스 상호작용의 모든 측면을 포괄하는 풍부한 UI 작업 유형을 지원합니다:
| 작업 이름 | 기능 설명 | 매개변수 예시 |
|---|---|---|
open_web_browser | 웹 브라우저 열기 | 매개변수 없음 |
click_at | 지정된 좌표에서 클릭 | {"x": 500, "y": 300} |
type_text_at | 지정된 위치에 텍스트 입력 | {"x": 400, "y": 250, "text": "검색 내용"} |
navigate | 지정된 URL로 이동 | {"url": "https://example.com"} |
| 작업 이름 | 기능 설명 | 매개변수 예시 |
|---|---|---|
scroll_document | 전체 페이지 스크롤 | {"direction": "down"} |
scroll_at | 지정된 영역에서 스크롤 | {"x": 500, "y": 500, "direction": "down"} |
hover_at | 마우스 호버 | {"x": 250, "y": 150} |
drag_and_drop | 드래그 앤 드롭 작업 | {"x": 100, "y": 100, "destination_x": 500, "destination_y": 500} |
wait_5_seconds로 동적 콘텐츠 로딩 대기go_back, go_forward로 히스토리 탐색key_combination으로 키보드 단축키 지원search로 기본 검색 엔진으로 이동💡 좌표 시스템
모든 좌표는 1000x1000 그리드 시스템을 기반으로 하며, 실제 화면 크기에 자동으로 스케일링됩니다. 권장 화면 해상도: 1440x900.
from google import genai
from google.genai import types
from google.genai.types import Content, Part
from playwright.sync_api import sync_playwright
# 클라이언트 초기화
client = genai.Client()
# 화면 크기 설정
SCREEN_WIDTH = 1440
SCREEN_HEIGHT = 900
# Computer Use 도구 구성
generate_content_config = genai.types.GenerateContentConfig(
tools=[
types.Tool(
computer_use=types.ComputerUse(
environment=types.Environment.ENVIRONMENT_BROWSER,
# 선택 사항: 특정 함수 제외
excluded_predefined_functions=["drag_and_drop"]
)
)
]
)
def build_agent_loop():
with sync_playwright() as p:
browser = p.chromium.launch(headless=False)
page = browser.new_page()
for iteration in range(10):
# 1. 요청 전송
response = client.models.generate_content(
model='gemini-2.5-computer-use-preview-10-2025',
contents=contents,
config=generate_content_config
)
# 2. 완료 확인
if not has_function_calls(response):
print(f"작업 완료: {response.text}")
break
# 3. 작업 실행
results = execute_function_calls(response, page, SCREEN_WIDTH, SCREEN_HEIGHT)
# 4. 새로운 상태 캡처
contents.append(create_feedback(results, page))
모바일 애플리케이션을 위해 사용자 정의 함수를 추가할 수 있습니다:
def open_app(app_name: str, intent: Optional[str] = None):
"""지정된 앱 열기"""
return {"status": "requested_open", "app_name": app_name}
def long_press_at(x: int, y: int, duration_ms: int = 500):
"""길게 누르기 작업"""
return {"x": x, "y": y, "duration_ms": duration_ms}
def go_home():
"""홈 화면으로 돌아가기"""
return {"status": "home_requested"}
Gemini 2.5 Computer Use 모델은 다층 보안 보호 메커니즘을 통합합니다:
def handle_safety_decision(safety_decision):
if safety_decision.get("decision") == "require_confirmation":
user_input = input(f"보안 경고: {safety_decision['explanation']}\n계속하시겠습니까? (y/n): ")
return user_input.lower() in ['y', 'yes']
return True
## 보안 규칙 예시
### 규칙 1: 사용자 확인 (USER_CONFIRMATION)
- 약관 동의: 서비스 약관, 개인정보 보호정책 자동 수락 금지
- 봇 감지: CAPTCHA 자동 해결 금지
- 금융 거래: 구매 완료 전 사용자 확인 필요
- 통신 전송: 이메일, 메시지 전송 전 확인 필요
- 민감 정보: 건강, 재무 기록 접근 시 승인 필요
### 규칙 2: 기본 동작 (ACTUATE)
- 확인 카테고리에 포함되지 않은 작업을 적극적으로 실행
- 완료 또는 제한에 직면할 때까지 사용자 요청을 지속적으로 추진
안전한 실행 환경
입력 정제
접근 제어
모니터링 및 로깅
⚠️ 위험 경고
Gemini 2.5 Computer Use는 신뢰할 수 없는 콘텐츠, 의도하지 않은 작업 및 정책 위반을 포함한 새로운 위험 유형을 도입합니다. 개발자는 적절한 보안 조치를 구현해야 합니다.
Poke.com (AI 어시스턴트 서비스):
"Gemini 2.5 Computer Use는 속도에서 경쟁사를 훨씬 능가하며, 일반적으로 50% 더 빠르고 우리가 고려한 차선책보다 더 나은 성능을 발휘합니다."
Autotab (AI Agent):
"복잡한 상황에서 컨텍스트를 안정적으로 파싱하는 점에서 Gemini 2.5 Computer Use는 다른 모델을 초월하며, 우리의 가장 어려운 평가에서 최대 18%의 성능 향상을 달성했습니다."
| 응용 분야 | 구체적 사용 사례 | 가치 및 이점 |
|---|---|---|
| 전자상거래 자동화 | 제품 정보 수집, 가격 비교 | 효율성 향상, 인건비 절감 |
| 콘텐츠 관리 | 일괄 게시, 데이터 마이그레이션 | 시간 절약, 오류율 감소 |
| 고객 서비스 | 고객 지원 프로세스 자동화 | 응답 시간 개선, 만족도 향상 |
| 데이터 분석 | 크로스 플랫폼 데이터 수집 및 정리 | 데이터 완전성 향상, 분석 가속화 |
| 플랫폼 | 상태 | 접근 방법 |
|---|---|---|
| Google AI Studio | 공개 프리뷰 | 직접 API 접근 |
| Vertex AI | 공개 프리뷰 | 엔터프라이즈 배포 |
| Browserbase 데모 | 즉시 체험 | gemini.browserbase.com |
✅ 즉시 사용 가능
기다릴 필요 없이 지금 바로 Gemini API를 통해 Gemini 2.5 Computer Use 애플리케이션 구축을 시작할 수 있습니다.
A: Gemini 2.5 Computer Use는 Gemini 2.5 Pro를 기반으로 특별히 최적화된 모델로, 시각적 이해 및 인터페이스 작업 능력을 갖추고 있습니다. 텍스트 응답을 생성하는 대신 클릭, 입력, 스크롤 등의 구체적인 UI 작업 지시를 생성합니다.
A: 주로 웹 브라우저에 최적화되어 있으며, 모바일 UI 제어에서도 우수한 성능을 보입니다. 현재 데스크톱 OS 수준의 제어에는 최적화되어 있지 않습니다.
A: 모델은 실시간 안전 검사, 사용자 확인 메커니즘 및 시스템 지침 제어를 포함한 다층 보안 메커니즘을 내장하고 있습니다. 개발자는 샌드박스 환경, 접근 제어 및 상세한 로깅도 구현해야 합니다.
A: 표준화된 1000x1000 그리드 시스템을 사용하며, 실제 화면 크기에 자동으로 스케일링됩니다. 최상의 결과를 위해 1440x900 해상도 사용을 권장합니다.
A: 예, function_declarations를 통해 사용자 정의 함수를 추가할 수 있으며, excluded_predefined_functions를 통해 불필요한 사전 정의 작업을 제외할 수 있습니다.
A: 모델은 동적 콘텐츠 로딩을 기다리기 위한 wait_5_seconds 작업을 제공하며, 페이지 상태에 기반한 지능형 대기 메커니즘도 지원합니다.
A: 작업이 실패하거나 오류가 발생하면 모델은 현재 화면 상태를 분석하고 자율적으로 복구 작업을 결정합니다. Google 내부 테스트에서는 실패한 실행의 60% 이상을 성공적으로 수정할 수 있음을 보여줍니다.
A: 병렬 함수 호출을 지원하며, 모델은 단일 응답에서 여러 독립적인 작업 지시를 반환할 수 있어 실행 효율성이 향상됩니다.
Gemini 2.5 Computer Use 모델은 AI agent 기술의 중대한 돌파구를 나타내며, AI와 그래픽 사용자 인터페이스의 직접적인 상호작용을 처음으로 실현했습니다. 뛰어난 성능, 완벽한 보안 메커니즘 및 풍부한 애플리케이션 시나리오는 자동화, 테스트, 데이터 수집 등의 분야에 혁명적인 가능성을 가져옵니다.
Gemini 2.5 Computer Use 모델의 출시는 AI agent가 완전히 새로운 발전 단계에 진입했음을 의미합니다. 지금 바로 이 기술 탐색을 시작하고 AI 자동화 애플리케이션의 선구자가 되십시오!