2025 완전 가이드: Gemini 2.5 Computer Use 모델 - AI Agent 인터페이스 제어의 혁명적 돌파구

Cheng Zhang·2025년 10월 8일

🎯 핵심 요점 (TL;DR)

  • 획기적 기술: Google이 인터페이스 제어 전용으로 설계된 최초의 Gemini 2.5 Computer Use 모델 출시
  • 뛰어난 성능: Gemini 2.5 Computer Use는 여러 웹 및 모바일 제어 벤치마크에서 경쟁사를 능가하며 지연 시간도 낮음
  • 실용적 가치: Gemini 2.5 Computer Use로 자동 양식 작성, 웹 탐색, UI 테스트 등의 agent 애플리케이션 구축 가능
  • 보안 보장: Gemini 2.5 Computer Use는 사용자 확인 및 실시간 안전 검사를 포함한 다층 보안 메커니즘 내장
  • 즉시 사용 가능: Google AI Studio 및 Vertex AI 플랫폼의 Gemini API를 통해 Gemini 2.5 Computer Use 프리뷰 버전 이용 가능

목차

  1. Gemini 2.5 Computer Use 모델이란
  2. 핵심 작동 원리
  3. 성능 및 벤치마크
  4. 지원되는 작업 유형
  5. 개발 구현 가이드
  6. 보안 메커니즘 및 모범 사례
  7. 실제 사용 사례
  8. 가격 및 이용 가능성
  9. 자주 묻는 질문

Gemini 2.5 Computer Use 모델이란 {#what-is-computer-use}

Gemini 2.5 Computer Use는 Google이 Gemini 2.5 Pro의 시각적 이해 및 추론 능력을 기반으로 구축한 전용 모델로, 사용자 인터페이스 제어에 특화되어 있습니다. 구조화된 API를 통한 기존 소프트웨어 상호작용과 달리, 이 모델은 인간처럼 그래픽 사용자 인터페이스와 직접 상호작용할 수 있습니다.

핵심 기능

  • 시각적 이해: 컴퓨터 화면을 "보고" 인터페이스 요소를 이해하는 능력
  • 액션 생성: 구체적인 UI 작업 지시(클릭, 입력, 스크롤 등) 생성
  • 멀티 플랫폼 지원: 주로 웹 브라우저에 최적화되어 있으며 모바일 제어도 지원
  • 실시간 피드백: 작업 결과에 따라 후속 동작 조정

💡 기술적 돌파구
이는 인터페이스 제어 작업에 특화되어 최적화된 최초의 대규모 언어 모델로, AI와 그래픽 인터페이스 상호작용의 중요한 공백을 메웁니다.

핵심 작동 원리 {#how-it-works}

Gemini 2.5 Computer Use 모델은 순환적 상호작용 메커니즘을 채택하며, 전체 프로세스는 4개의 핵심 단계로 나뉩니다:

1. 모델에 요청 전송

  • API 요청에 Computer Use 도구 추가
  • 사용자 목표와 현재 GUI 스크린샷 제공
  • 선택적으로 특정 작업 제외 또는 사용자 정의 함수 추가

2. 모델 응답 수신

  • 모델이 사용자 요청과 스크린샷 분석
  • 구체적인 UI 작업을 나타내는 function_call을 포함한 응답 생성
  • 사용자 확인이 필요한 안전 결정을 포함할 수 있음

3. 수신한 작업 실행

  • 클라이언트 코드가 function_call을 파싱하고 실행
  • 안전 결정에 따라 사용자 확인 필요 여부 판단
  • 대상 환경(예: 브라우저)에서 작업 실행

4. 새로운 환경 상태 캡처

  • 작업 실행 후 새로운 GUI 스크린샷 캡처
  • 결과를 function_response로 모델에 다시 전송
  • 작업 완료까지 새로운 사이클 시작

Computer Use 워크플로우

⚠️ 중요 공지
gemini-2.5-computer-use-preview-10-2025 모델을 사용해야 합니다. 다른 모델은 Computer Use 도구를 지원하지 않습니다.

성능 및 벤치마크 {#performance-benchmarks}

Gemini 2.5 Computer Use는 여러 권위 있는 벤치마크에서 뛰어난 성능을 보여줍니다:

주요 벤치마크 결과

벤치마크Gemini 2.5 Computer Use최고 경쟁사성능 향상
WebArena선도적 성능-현저한 우위
Online-Mind2Web높은 정확도-낮은 지연 시간 우위
Mobile Control강력한 성능-멀티 플랫폼 지원

성능 특성

  • 정확도 선도: 웹 및 모바일 제어 작업에서 기존 솔루션 능가
  • 최저 지연 시간: 업계 최고 수준의 응답 속도 제공
  • 안정성과 신뢰성: 복잡한 인터페이스 시나리오에서도 높은 성공률 유지

벤치마크 검증
테스트 결과는 자체 보고 데이터, Browserbase 평가 및 Google 내부 테스트에서 나온 것입니다. 자세한 정보는 공식 평가 문서에서 확인할 수 있습니다.

지원되는 작업 유형 {#supported-actions}

Gemini 2.5 Computer Use 모델은 일상적인 인터페이스 상호작용의 모든 측면을 포괄하는 풍부한 UI 작업 유형을 지원합니다:

기본 작업

작업 이름기능 설명매개변수 예시
open_web_browser웹 브라우저 열기매개변수 없음
click_at지정된 좌표에서 클릭{"x": 500, "y": 300}
type_text_at지정된 위치에 텍스트 입력{"x": 400, "y": 250, "text": "검색 내용"}
navigate지정된 URL로 이동{"url": "https://example.com"}

고급 작업

작업 이름기능 설명매개변수 예시
scroll_document전체 페이지 스크롤{"direction": "down"}
scroll_at지정된 영역에서 스크롤{"x": 500, "y": 500, "direction": "down"}
hover_at마우스 호버{"x": 250, "y": 150}
drag_and_drop드래그 앤 드롭 작업{"x": 100, "y": 100, "destination_x": 500, "destination_y": 500}

특수 기능

  • 대기 메커니즘: wait_5_seconds로 동적 콘텐츠 로딩 대기
  • 브라우저 제어: go_back, go_forward로 히스토리 탐색
  • 키보드 조합: key_combination으로 키보드 단축키 지원
  • 검색 기능: search로 기본 검색 엔진으로 이동

💡 좌표 시스템
모든 좌표는 1000x1000 그리드 시스템을 기반으로 하며, 실제 화면 크기에 자동으로 스케일링됩니다. 권장 화면 해상도: 1440x900.

개발 구현 가이드 {#implementation-guide}

환경 설정

from google import genai
from google.genai import types
from google.genai.types import Content, Part
from playwright.sync_api import sync_playwright

# 클라이언트 초기화
client = genai.Client()

# 화면 크기 설정
SCREEN_WIDTH = 1440
SCREEN_HEIGHT = 900

기본 구성

# Computer Use 도구 구성
generate_content_config = genai.types.GenerateContentConfig(
    tools=[
        types.Tool(
            computer_use=types.ComputerUse(
                environment=types.Environment.ENVIRONMENT_BROWSER,
                # 선택 사항: 특정 함수 제외
                excluded_predefined_functions=["drag_and_drop"]
            )
        )
    ]
)

Agent 루프 구현

def build_agent_loop():
    with sync_playwright() as p:
        browser = p.chromium.launch(headless=False)
        page = browser.new_page()
        
        for iteration in range(10):
            # 1. 요청 전송
            response = client.models.generate_content(
                model='gemini-2.5-computer-use-preview-10-2025',
                contents=contents,
                config=generate_content_config
            )
            
            # 2. 완료 확인
            if not has_function_calls(response):
                print(f"작업 완료: {response.text}")
                break
            
            # 3. 작업 실행
            results = execute_function_calls(response, page, SCREEN_WIDTH, SCREEN_HEIGHT)
            
            # 4. 새로운 상태 캡처
            contents.append(create_feedback(results, page))

모바일 확장

모바일 애플리케이션을 위해 사용자 정의 함수를 추가할 수 있습니다:

def open_app(app_name: str, intent: Optional[str] = None):
    """지정된 앱 열기"""
    return {"status": "requested_open", "app_name": app_name}

def long_press_at(x: int, y: int, duration_ms: int = 500):
    """길게 누르기 작업"""
    return {"x": x, "y": y, "duration_ms": duration_ms}

def go_home():
    """홈 화면으로 돌아가기"""
    return {"status": "home_requested"}

보안 메커니즘 및 모범 사례 {#safety-security}

내장 보안 기능

Gemini 2.5 Computer Use 모델은 다층 보안 보호 메커니즘을 통합합니다:

1. 실시간 안전 검사

  • 정상/허용: 작업이 안전한 것으로 간주됨
  • 확인 필요: 실행 전 명시적인 사용자 동의 필요
def handle_safety_decision(safety_decision):
    if safety_decision.get("decision") == "require_confirmation":
        user_input = input(f"보안 경고: {safety_decision['explanation']}\n계속하시겠습니까? (y/n): ")
        return user_input.lower() in ['y', 'yes']
    return True

2. 시스템 지침 보안

## 보안 규칙 예시

### 규칙 1: 사용자 확인 (USER_CONFIRMATION)
- 약관 동의: 서비스 약관, 개인정보 보호정책 자동 수락 금지
- 봇 감지: CAPTCHA 자동 해결 금지
- 금융 거래: 구매 완료 전 사용자 확인 필요
- 통신 전송: 이메일, 메시지 전송 전 확인 필요
- 민감 정보: 건강, 재무 기록 접근 시 승인 필요

### 규칙 2: 기본 동작 (ACTUATE)
- 확인 카테고리에 포함되지 않은 작업을 적극적으로 실행
- 완료 또는 제한에 직면할 때까지 사용자 요청을 지속적으로 추진

보안 모범 사례

  1. 안전한 실행 환경

    • 샌드박스 가상 머신 또는 컨테이너 사용
    • 권한이 제한된 전용 브라우저 프로필
  2. 입력 정제

    • 사용자 생성 텍스트 콘텐츠 정제
    • 프롬프트 인젝션 공격 방지
  3. 접근 제어

    • 웹사이트 화이트리스트/블랙리스트 구현
    • 접근 가능한 함수 범위 제한
  4. 모니터링 및 로깅

    • 모든 프롬프트, 스크린샷 및 작업 기록
    • 상세한 감사 로그 유지

⚠️ 위험 경고
Gemini 2.5 Computer Use는 신뢰할 수 없는 콘텐츠, 의도하지 않은 작업 및 정책 위반을 포함한 새로운 위험 유형을 도입합니다. 개발자는 적절한 보안 조치를 구현해야 합니다.

실제 사용 사례 {#use-cases}

기업 애플리케이션

1. UI 자동화 테스트

  • Google 결제 플랫폼 팀: Gemini 2.5 Computer Use를 사용하여 취약한 엔드투엔드 UI 테스트 수정
  • 결과: 테스트 실행 실패의 60% 이상을 성공적으로 수정(원래 며칠의 수동 수정 필요)

2. 워크플로우 자동화

  • 양식 작성: 반복적인 데이터 입력 작업 자동화
  • 웹 탐색: 여러 웹사이트에 걸친 정보 수집
  • 애플리케이션 작업: 웹 애플리케이션에서 복잡한 작업 시퀀스 실행

타사 개발자 피드백

Poke.com (AI 어시스턴트 서비스):
"Gemini 2.5 Computer Use는 속도에서 경쟁사를 훨씬 능가하며, 일반적으로 50% 더 빠르고 우리가 고려한 차선책보다 더 나은 성능을 발휘합니다."

Autotab (AI Agent):
"복잡한 상황에서 컨텍스트를 안정적으로 파싱하는 점에서 Gemini 2.5 Computer Use는 다른 모델을 초월하며, 우리의 가장 어려운 평가에서 최대 18%의 성능 향상을 달성했습니다."

전형적인 사용 시나리오

응용 분야구체적 사용 사례가치 및 이점
전자상거래 자동화제품 정보 수집, 가격 비교효율성 향상, 인건비 절감
콘텐츠 관리일괄 게시, 데이터 마이그레이션시간 절약, 오류율 감소
고객 서비스고객 지원 프로세스 자동화응답 시간 개선, 만족도 향상
데이터 분석크로스 플랫폼 데이터 수집 및 정리데이터 완전성 향상, 분석 가속화

가격 및 이용 가능성 {#pricing-availability}

가격 모델

  • 가격 기준: Gemini 2.5 Pro와 동일한 요금 및 SKU
  • 비용 모니터링: 사용자 정의 메타데이터 태그를 사용하여 Gemini 2.5 Computer Use 비용 분리 가능
  • 청구 방식: API 호출량 및 처리 시간으로 청구

이용 가능성

플랫폼상태접근 방법
Google AI Studio공개 프리뷰직접 API 접근
Vertex AI공개 프리뷰엔터프라이즈 배포
Browserbase 데모즉시 체험gemini.browserbase.com

접근 옵션

  1. 지금 시도: Browserbase 호스팅 데모 환경 방문
  2. 구축 시작: GitHub 참조 구현 확인
  3. 커뮤니티 참여: 개발자 포럼에서 피드백 공유

즉시 사용 가능
기다릴 필요 없이 지금 바로 Gemini API를 통해 Gemini 2.5 Computer Use 애플리케이션 구축을 시작할 수 있습니다.

🤔 자주 묻는 질문 {#faq}

Q: Gemini 2.5 Computer Use 모델과 일반 Gemini 모델의 차이점은?

A: Gemini 2.5 Computer Use는 Gemini 2.5 Pro를 기반으로 특별히 최적화된 모델로, 시각적 이해 및 인터페이스 작업 능력을 갖추고 있습니다. 텍스트 응답을 생성하는 대신 클릭, 입력, 스크롤 등의 구체적인 UI 작업 지시를 생성합니다.

Q: 어떤 플랫폼과 환경이 지원됩니까?

A: 주로 웹 브라우저에 최적화되어 있으며, 모바일 UI 제어에서도 우수한 성능을 보입니다. 현재 데스크톱 OS 수준의 제어에는 최적화되어 있지 않습니다.

Q: 작업의 안전성을 어떻게 보장합니까?

A: 모델은 실시간 안전 검사, 사용자 확인 메커니즘 및 시스템 지침 제어를 포함한 다층 보안 메커니즘을 내장하고 있습니다. 개발자는 샌드박스 환경, 접근 제어 및 상세한 로깅도 구현해야 합니다.

Q: 좌표 시스템은 어떻게 작동합니까?

A: 표준화된 1000x1000 그리드 시스템을 사용하며, 실제 화면 크기에 자동으로 스케일링됩니다. 최상의 결과를 위해 1440x900 해상도 사용을 권장합니다.

Q: 사용자 정의 작업을 추가할 수 있습니까?

A: 예, function_declarations를 통해 사용자 정의 함수를 추가할 수 있으며, excluded_predefined_functions를 통해 불필요한 사전 정의 작업을 제외할 수 있습니다.

Q: 동적 콘텐츠와 로딩 시간을 어떻게 처리합니까?

A: 모델은 동적 콘텐츠 로딩을 기다리기 위한 wait_5_seconds 작업을 제공하며, 페이지 상태에 기반한 지능형 대기 메커니즘도 지원합니다.

Q: 오류 처리는 어떻게 수행됩니까?

A: 작업이 실패하거나 오류가 발생하면 모델은 현재 화면 상태를 분석하고 자율적으로 복구 작업을 결정합니다. Google 내부 테스트에서는 실패한 실행의 60% 이상을 성공적으로 수정할 수 있음을 보여줍니다.

Q: 병렬 작업이 지원됩니까?

A: 병렬 함수 호출을 지원하며, 모델은 단일 응답에서 여러 독립적인 작업 지시를 반환할 수 있어 실행 효율성이 향상됩니다.

요약 및 행동 권장 사항

Gemini 2.5 Computer Use 모델은 AI agent 기술의 중대한 돌파구를 나타내며, AI와 그래픽 사용자 인터페이스의 직접적인 상호작용을 처음으로 실현했습니다. 뛰어난 성능, 완벽한 보안 메커니즘 및 풍부한 애플리케이션 시나리오는 자동화, 테스트, 데이터 수집 등의 분야에 혁명적인 가능성을 가져옵니다.

즉각적인 행동 권장 사항

  1. 빠른 체험: Browserbase 데모 환경을 방문하여 Gemini 2.5 Computer Use의 능력을 직접 체험
  2. 기술 탐색: GitHub 참조 구현을 다운로드하여 로컬 환경에서 첫 번째 agent 구축
  3. 커뮤니티 참여: 개발자 포럼에 참여하여 다른 개발자와 경험 및 모범 사례 교환
  4. 보안 계획: 프로덕션 배포 전에 완전한 보안 전략 및 테스트 계획 수립

관련 리소스

Gemini 2.5 Computer Use 모델의 출시는 AI agent가 완전히 새로운 발전 단계에 진입했음을 의미합니다. 지금 바로 이 기술 탐색을 시작하고 AI 자동화 애플리케이션의 선구자가 되십시오!

Gemini 2.5 Computer Use 가이드

profile
독립 개발자

0개의 댓글