컨텐츠로 건너뛰기
뉴스
서울
맑음 / 6.3 °
AI타임스 언론사 이미지

구글, GUI 에이전트 '제미나이 2.5 컴퓨터 유즈' 공개

AI타임스
원문보기
댓글 이동 버튼0
[박찬 기자]

구글이 웹 브라우저에서 사람처럼 클릭하고 입력하며 작업을 수행할 수 있는 인공지능(AI) 모델을 공개했다. 지난해 12월 공개한 GUI 에이전트 '프로젝트 매리너'를 '제미나이 2.5' 기반으로 업그레이드한 것이다.

구글은 8일(현지시간) 브라우저를 통해 웹을 탐색하고 사용자 인터페이스(UI)와 상호작용할 수 있는 AI 모델 '제미나이 2.5 컴퓨터 유즈(Gemini 2.5 Computer Use)'를 출시했다.

제미나이 2.5 프로의 시각적 이해와 추론 능력을 기반으로 하며, 사용자의 요청을 분석해 양식 작성, 클릭, 스크롤, 드래그 앤 드롭 등 실제 사용자가 수행하는 13가지 동작을 자동화할 수 있다.

구글은 "여러 웹 및 모바일 제어 벤치마크에서 경쟁 모델을 능가하면서도 더 낮은 지연 속도를 달성했다"라고 밝혔다. 특히, 웹 브라우저 제어 성능은 브라우저베이스(Browserbase)에서 진행된 '온라인-마인드2웹(Online-Mind2Web)' 벤치마크에서 가장 우수한 성능을 기록했다.


AI가 소프트웨어와 상호작용하는 방식은 일반적으로 구조화된 API를 통해 이뤄지지만, 여전히 많은 작업에는 시각적 UI 상호작용이 필요하다.

온라인 양식을 직접 작성하거나, 드롭다운 메뉴를 선택하고, 로그인이 필요한 웹페이지에서 작업을 수행하는 경우가 대표적인 예다. 제미나이 2.5 컴퓨터 유즈는 이런 인간 중심으로 설계된 인터페이스 환경을 탐색할 수 있도록 설계된 것이다.


모델은 사용자의 요청, 환경의 스크린샷, 최근 수행한 작업 내역 등을 입력으로 받는다. 이를 분석해 클릭이나 입력 같은 UI 동작을 제안하고, 결제 등 일부 작업의 경우 사용자 확인을 요청한다. 각 단계가 실행될 때마다 새 스크린샷과 URL이 다시 모델로 전달, 작업이 완료되거나 오류가 발생할 때까지 이 과정이 반복된다.

현재는 웹 환경에 최적화되어 있으며, 모바일 UI 제어에도 유망할 것으로 예측했다. 아직 데스크톱 운영체제(OS) 수준의 제어에는 최적화되지 않았다.

이번 모델은 현재 구글 AI 스튜디오와 버텍스 AI, API를 통해 개발자 미리보기 형태로 공개됐다.


한편, 컴퓨터 유즈는 지난해 앤트로픽이 출시한 GUI 에이전트의 이름이기도 하다. 오픈AI도 지난 1월 '오퍼레이터'라는 웹 에이전트를 출시했다.

구글이 지난해 공개한 프로젝트 매리너는 '제미나이 2.0' 기반이었다. 이번에는 제미나이 2.5로 교체됐다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1김민종 미우새 논란
    김민종 미우새 논란
  2. 2이이경 유재석 패싱 논란
    이이경 유재석 패싱 논란
  3. 3차태현 성격 논란
    차태현 성격 논란
  4. 4박나래 주사이모 논란
    박나래 주사이모 논란
  5. 5윤태영 웰터급 챔피언
    윤태영 웰터급 챔피언

함께 보면 좋은 영상

AI타임스 하이라이트

파워링크

광고
링크등록

독자의 뉴스 Pick

쇼핑 핫아이템

AD