2025 완전 가이드: Gemini 2.5 Computer Use 모델 - AI Agent 인터페이스 제어의 혁명적 돌파구

Cheng Zhang·2025년 10월 8일

🎯 핵심 요점 (TL;DR)

획기적 기술: Google이 인터페이스 제어 전용으로 설계된 최초의 Gemini 2.5 Computer Use 모델 출시
뛰어난 성능: Gemini 2.5 Computer Use는 여러 웹 및 모바일 제어 벤치마크에서 경쟁사를 능가하며 지연 시간도 낮음
실용적 가치: Gemini 2.5 Computer Use로 자동 양식 작성, 웹 탐색, UI 테스트 등의 agent 애플리케이션 구축 가능
보안 보장: Gemini 2.5 Computer Use는 사용자 확인 및 실시간 안전 검사를 포함한 다층 보안 메커니즘 내장
즉시 사용 가능: Google AI Studio 및 Vertex AI 플랫폼의 Gemini API를 통해 Gemini 2.5 Computer Use 프리뷰 버전 이용 가능

Gemini 2.5 Computer Use 모델이란 {#what-is-computer-use}

Gemini 2.5 Computer Use는 Google이 Gemini 2.5 Pro의 시각적 이해 및 추론 능력을 기반으로 구축한 전용 모델로, 사용자 인터페이스 제어에 특화되어 있습니다. 구조화된 API를 통한 기존 소프트웨어 상호작용과 달리, 이 모델은 인간처럼 그래픽 사용자 인터페이스와 직접 상호작용할 수 있습니다.

핵심 기능

시각적 이해: 컴퓨터 화면을 "보고" 인터페이스 요소를 이해하는 능력
액션 생성: 구체적인 UI 작업 지시(클릭, 입력, 스크롤 등) 생성
멀티 플랫폼 지원: 주로 웹 브라우저에 최적화되어 있으며 모바일 제어도 지원
실시간 피드백: 작업 결과에 따라 후속 동작 조정

💡 기술적 돌파구
이는 인터페이스 제어 작업에 특화되어 최적화된 최초의 대규모 언어 모델로, AI와 그래픽 인터페이스 상호작용의 중요한 공백을 메웁니다.

핵심 작동 원리 {#how-it-works}

Gemini 2.5 Computer Use 모델은 순환적 상호작용 메커니즘을 채택하며, 전체 프로세스는 4개의 핵심 단계로 나뉩니다:

1. 모델에 요청 전송

API 요청에 Computer Use 도구 추가
사용자 목표와 현재 GUI 스크린샷 제공
선택적으로 특정 작업 제외 또는 사용자 정의 함수 추가

2. 모델 응답 수신

모델이 사용자 요청과 스크린샷 분석
구체적인 UI 작업을 나타내는 function_call을 포함한 응답 생성
사용자 확인이 필요한 안전 결정을 포함할 수 있음

3. 수신한 작업 실행

클라이언트 코드가 function_call을 파싱하고 실행
안전 결정에 따라 사용자 확인 필요 여부 판단
대상 환경(예: 브라우저)에서 작업 실행

4. 새로운 환경 상태 캡처

작업 실행 후 새로운 GUI 스크린샷 캡처
결과를 function_response로 모델에 다시 전송
작업 완료까지 새로운 사이클 시작

Computer Use 워크플로우

⚠️ 중요 공지
gemini-2.5-computer-use-preview-10-2025 모델을 사용해야 합니다. 다른 모델은 Computer Use 도구를 지원하지 않습니다.

성능 및 벤치마크 {#performance-benchmarks}

Gemini 2.5 Computer Use는 여러 권위 있는 벤치마크에서 뛰어난 성능을 보여줍니다:

주요 벤치마크 결과

벤치마크	Gemini 2.5 Computer Use	최고 경쟁사	성능 향상
WebArena	선도적 성능	-	현저한 우위
Online-Mind2Web	높은 정확도	-	낮은 지연 시간 우위
Mobile Control	강력한 성능	-	멀티 플랫폼 지원

성능 특성

정확도 선도: 웹 및 모바일 제어 작업에서 기존 솔루션 능가
최저 지연 시간: 업계 최고 수준의 응답 속도 제공
안정성과 신뢰성: 복잡한 인터페이스 시나리오에서도 높은 성공률 유지

✅ 벤치마크 검증
테스트 결과는 자체 보고 데이터, Browserbase 평가 및 Google 내부 테스트에서 나온 것입니다. 자세한 정보는 공식 평가 문서에서 확인할 수 있습니다.

지원되는 작업 유형 {#supported-actions}

Gemini 2.5 Computer Use 모델은 일상적인 인터페이스 상호작용의 모든 측면을 포괄하는 풍부한 UI 작업 유형을 지원합니다:

기본 작업

작업 이름	기능 설명	매개변수 예시
`open_web_browser`	웹 브라우저 열기	매개변수 없음
`click_at`	지정된 좌표에서 클릭	`{"x": 500, "y": 300}`
`type_text_at`	지정된 위치에 텍스트 입력	`{"x": 400, "y": 250, "text": "검색 내용"}`
`navigate`	지정된 URL로 이동	`{"url": "https://example.com"}`

고급 작업

작업 이름	기능 설명	매개변수 예시
`scroll_document`	전체 페이지 스크롤	`{"direction": "down"}`
`scroll_at`	지정된 영역에서 스크롤	`{"x": 500, "y": 500, "direction": "down"}`
`hover_at`	마우스 호버	`{"x": 250, "y": 150}`
`drag_and_drop`	드래그 앤 드롭 작업	`{"x": 100, "y": 100, "destination_x": 500, "destination_y": 500}`

특수 기능

대기 메커니즘: wait_5_seconds로 동적 콘텐츠 로딩 대기
브라우저 제어: go_back, go_forward로 히스토리 탐색
키보드 조합: key_combination으로 키보드 단축키 지원
검색 기능: search로 기본 검색 엔진으로 이동

💡 좌표 시스템
모든 좌표는 1000x1000 그리드 시스템을 기반으로 하며, 실제 화면 크기에 자동으로 스케일링됩니다. 권장 화면 해상도: 1440x900.

개발 구현 가이드 {#implementation-guide}

환경 설정

from google import genai
from google.genai import types
from google.genai.types import Content, Part
from playwright.sync_api import sync_playwright

# 클라이언트 초기화
client = genai.Client()

# 화면 크기 설정
SCREEN_WIDTH = 1440
SCREEN_HEIGHT = 900

기본 구성

# Computer Use 도구 구성
generate_content_config = genai.types.GenerateContentConfig(
    tools=[
        types.Tool(
            computer_use=types.ComputerUse(
                environment=types.Environment.ENVIRONMENT_BROWSER,
                # 선택 사항: 특정 함수 제외
                excluded_predefined_functions=["drag_and_drop"]
            )
        )
    ]
)

Agent 루프 구현

def build_agent_loop():
    with sync_playwright() as p:
        browser = p.chromium.launch(headless=False)
        page = browser.new_page()
        
        for iteration in range(10):
            # 1. 요청 전송
            response = client.models.generate_content(
                model='gemini-2.5-computer-use-preview-10-2025',
                contents=contents,
                config=generate_content_config
            )
            
            # 2. 완료 확인
            if not has_function_calls(response):
                print(f"작업 완료: {response.text}")
                break
            
            # 3. 작업 실행
            results = execute_function_calls(response, page, SCREEN_WIDTH, SCREEN_HEIGHT)
            
            # 4. 새로운 상태 캡처
            contents.append(create_feedback(results, page))

모바일 확장

모바일 애플리케이션을 위해 사용자 정의 함수를 추가할 수 있습니다:

def open_app(app_name: str, intent: Optional[str] = None):
    """지정된 앱 열기"""
    return {"status": "requested_open", "app_name": app_name}

def long_press_at(x: int, y: int, duration_ms: int = 500):
    """길게 누르기 작업"""
    return {"x": x, "y": y, "duration_ms": duration_ms}

def go_home():
    """홈 화면으로 돌아가기"""
    return {"status": "home_requested"}

보안 메커니즘 및 모범 사례 {#safety-security}

내장 보안 기능

Gemini 2.5 Computer Use 모델은 다층 보안 보호 메커니즘을 통합합니다:

1. 실시간 안전 검사

정상/허용: 작업이 안전한 것으로 간주됨
확인 필요: 실행 전 명시적인 사용자 동의 필요

def handle_safety_decision(safety_decision):
    if safety_decision.get("decision") == "require_confirmation":
        user_input = input(f"보안 경고: {safety_decision['explanation']}\n계속하시겠습니까? (y/n): ")
        return user_input.lower() in ['y', 'yes']
    return True

2. 시스템 지침 보안

## 보안 규칙 예시

### 규칙 1: 사용자 확인 (USER_CONFIRMATION)
- 약관 동의: 서비스 약관, 개인정보 보호정책 자동 수락 금지
- 봇 감지: CAPTCHA 자동 해결 금지
- 금융 거래: 구매 완료 전 사용자 확인 필요
- 통신 전송: 이메일, 메시지 전송 전 확인 필요
- 민감 정보: 건강, 재무 기록 접근 시 승인 필요

### 규칙 2: 기본 동작 (ACTUATE)
- 확인 카테고리에 포함되지 않은 작업을 적극적으로 실행
- 완료 또는 제한에 직면할 때까지 사용자 요청을 지속적으로 추진

보안 모범 사례

안전한 실행 환경
- 샌드박스 가상 머신 또는 컨테이너 사용
- 권한이 제한된 전용 브라우저 프로필
입력 정제
- 사용자 생성 텍스트 콘텐츠 정제
- 프롬프트 인젝션 공격 방지
접근 제어
- 웹사이트 화이트리스트/블랙리스트 구현
- 접근 가능한 함수 범위 제한
모니터링 및 로깅
- 모든 프롬프트, 스크린샷 및 작업 기록
- 상세한 감사 로그 유지

⚠️ 위험 경고
Gemini 2.5 Computer Use는 신뢰할 수 없는 콘텐츠, 의도하지 않은 작업 및 정책 위반을 포함한 새로운 위험 유형을 도입합니다. 개발자는 적절한 보안 조치를 구현해야 합니다.

실제 사용 사례 {#use-cases}

기업 애플리케이션

1. UI 자동화 테스트

Google 결제 플랫폼 팀: Gemini 2.5 Computer Use를 사용하여 취약한 엔드투엔드 UI 테스트 수정
결과: 테스트 실행 실패의 60% 이상을 성공적으로 수정(원래 며칠의 수동 수정 필요)

2. 워크플로우 자동화

양식 작성: 반복적인 데이터 입력 작업 자동화
웹 탐색: 여러 웹사이트에 걸친 정보 수집
애플리케이션 작업: 웹 애플리케이션에서 복잡한 작업 시퀀스 실행

타사 개발자 피드백

Poke.com (AI 어시스턴트 서비스):
"Gemini 2.5 Computer Use는 속도에서 경쟁사를 훨씬 능가하며, 일반적으로 50% 더 빠르고 우리가 고려한 차선책보다 더 나은 성능을 발휘합니다."

Autotab (AI Agent):
"복잡한 상황에서 컨텍스트를 안정적으로 파싱하는 점에서 Gemini 2.5 Computer Use는 다른 모델을 초월하며, 우리의 가장 어려운 평가에서 최대 18%의 성능 향상을 달성했습니다."

전형적인 사용 시나리오

응용 분야	구체적 사용 사례	가치 및 이점
전자상거래 자동화	제품 정보 수집, 가격 비교	효율성 향상, 인건비 절감
콘텐츠 관리	일괄 게시, 데이터 마이그레이션	시간 절약, 오류율 감소
고객 서비스	고객 지원 프로세스 자동화	응답 시간 개선, 만족도 향상
데이터 분석	크로스 플랫폼 데이터 수집 및 정리	데이터 완전성 향상, 분석 가속화

가격 및 이용 가능성 {#pricing-availability}

가격 모델

가격 기준: Gemini 2.5 Pro와 동일한 요금 및 SKU
비용 모니터링: 사용자 정의 메타데이터 태그를 사용하여 Gemini 2.5 Computer Use 비용 분리 가능
청구 방식: API 호출량 및 처리 시간으로 청구

이용 가능성

플랫폼	상태	접근 방법
Google AI Studio	공개 프리뷰	직접 API 접근
Vertex AI	공개 프리뷰	엔터프라이즈 배포
Browserbase 데모	즉시 체험	gemini.browserbase.com

접근 옵션

지금 시도: Browserbase 호스팅 데모 환경 방문
구축 시작: GitHub 참조 구현 확인
커뮤니티 참여: 개발자 포럼에서 피드백 공유

✅ 즉시 사용 가능
기다릴 필요 없이 지금 바로 Gemini API를 통해 Gemini 2.5 Computer Use 애플리케이션 구축을 시작할 수 있습니다.

🤔 자주 묻는 질문 {#faq}

Q: Gemini 2.5 Computer Use 모델과 일반 Gemini 모델의 차이점은?

A: Gemini 2.5 Computer Use는 Gemini 2.5 Pro를 기반으로 특별히 최적화된 모델로, 시각적 이해 및 인터페이스 작업 능력을 갖추고 있습니다. 텍스트 응답을 생성하는 대신 클릭, 입력, 스크롤 등의 구체적인 UI 작업 지시를 생성합니다.

Q: 어떤 플랫폼과 환경이 지원됩니까?

A: 주로 웹 브라우저에 최적화되어 있으며, 모바일 UI 제어에서도 우수한 성능을 보입니다. 현재 데스크톱 OS 수준의 제어에는 최적화되어 있지 않습니다.

Q: 작업의 안전성을 어떻게 보장합니까?

A: 모델은 실시간 안전 검사, 사용자 확인 메커니즘 및 시스템 지침 제어를 포함한 다층 보안 메커니즘을 내장하고 있습니다. 개발자는 샌드박스 환경, 접근 제어 및 상세한 로깅도 구현해야 합니다.

Q: 좌표 시스템은 어떻게 작동합니까?

A: 표준화된 1000x1000 그리드 시스템을 사용하며, 실제 화면 크기에 자동으로 스케일링됩니다. 최상의 결과를 위해 1440x900 해상도 사용을 권장합니다.

Q: 사용자 정의 작업을 추가할 수 있습니까?

A: 예, function_declarations를 통해 사용자 정의 함수를 추가할 수 있으며, excluded_predefined_functions를 통해 불필요한 사전 정의 작업을 제외할 수 있습니다.

Q: 동적 콘텐츠와 로딩 시간을 어떻게 처리합니까?

A: 모델은 동적 콘텐츠 로딩을 기다리기 위한 wait_5_seconds 작업을 제공하며, 페이지 상태에 기반한 지능형 대기 메커니즘도 지원합니다.

Q: 오류 처리는 어떻게 수행됩니까?

A: 작업이 실패하거나 오류가 발생하면 모델은 현재 화면 상태를 분석하고 자율적으로 복구 작업을 결정합니다. Google 내부 테스트에서는 실패한 실행의 60% 이상을 성공적으로 수정할 수 있음을 보여줍니다.

Q: 병렬 작업이 지원됩니까?

A: 병렬 함수 호출을 지원하며, 모델은 단일 응답에서 여러 독립적인 작업 지시를 반환할 수 있어 실행 효율성이 향상됩니다.

요약 및 행동 권장 사항

Gemini 2.5 Computer Use 모델은 AI agent 기술의 중대한 돌파구를 나타내며, AI와 그래픽 사용자 인터페이스의 직접적인 상호작용을 처음으로 실현했습니다. 뛰어난 성능, 완벽한 보안 메커니즘 및 풍부한 애플리케이션 시나리오는 자동화, 테스트, 데이터 수집 등의 분야에 혁명적인 가능성을 가져옵니다.

즉각적인 행동 권장 사항

빠른 체험: Browserbase 데모 환경을 방문하여 Gemini 2.5 Computer Use의 능력을 직접 체험
기술 탐색: GitHub 참조 구현을 다운로드하여 로컬 환경에서 첫 번째 agent 구축
커뮤니티 참여: 개발자 포럼에 참여하여 다른 개발자와 경험 및 모범 사례 교환
보안 계획: 프로덕션 배포 전에 완전한 보안 전략 및 테스트 계획 수립

에이전틱 커머스 프로토콜 완전 가이드 2025: OpenAI와 Stripe가 AI 쇼핑 경험을 재편하는 방법

다음 포스트