컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
뉴스1 언론사 이미지

낙서 그림으로도 영화 속 장면 찾아내는 제미나이1.5…30배 빠르다

뉴스1 윤주영 기자
원문보기

텍스트뿐 아니라 영상도 해석하는 '멀티모달 기능' 갖춰



구글의 멀티모달 AI 제미나이1.5가 버스터 키튼 감독의 '셜록 주니어'라는 무성영화를 해석하고 있다. 시연자가 그린 조악한 낙서에 해당되는 장면을 찾아내는 모습.(구글 공식 유튜브 영상 갈무리)

구글의 멀티모달 AI 제미나이1.5가 버스터 키튼 감독의 '셜록 주니어'라는 무성영화를 해석하고 있다. 시연자가 그린 조악한 낙서에 해당되는 장면을 찾아내는 모습.(구글 공식 유튜브 영상 갈무리)


(서울=뉴스1) 윤주영 기자 = 구글의 최신 인공지능(AI) '제미나이(Gemini) 1.5'는 전작 대비 30배 빠른 정보처리 속도를 앞세워 문서·영상 등을 해석한다. 조악한 낙서 등 추상적 명령도 이해해 자료에서 그에 해당하는 부분을 맥락에 맞게 찾아낸다.

19일 업계에 따르면 구글은 최근 멀티모달 AI 제미나이 1.5를 공식 블로그를 통해 공개했다.

제미나이 1.5는 지난해 12월 울트라·프로·나노 3가지 사양으로 공개된 제미나이 1.0의 개선판이다.

동시 토큰 처리수를 늘려 긴 문맥의 자료를 빠르게 처리하는 데 방점을 뒀다. 토큰은 문서, 영상 등 데이터가 지닌 최소 의미 단위다.

제미나이 1.5는 최대 100만 개의 토큰을 동시 처리한다. 전 세대 프로 모델과 비교 시 30배 정도 빠르다. 전 세대 울트라와 비교 시 성능은 유사하지만 더 적은 컴퓨팅 자원을 소모한다.

선다 피차이 구글 최고경영자(CEO)는 "이번 모델은 긴 문맥을 이해하는 데 있어 획기적인 발전을 이뤄냈다"며 "최대 100만 개 토큰을 연속으로 처리해 정보 처리량을 극대화했다"고 설명했다.


이번 모델은 텍스트뿐 아니라 영상, 음원 등 시청각 데이터를 처리하는 멀티모달 기능을 지원한다.

구글 공식 유튜브에는 제미나이1.5가 버스터 키튼 감독의 '셜록 주니어'라는 무성영화를 해석하는 시연이 올라오기도 했다. 44분 길이의 이 영화는 토큰으로 환산 시 약 70만 개 분량이다.

영화를 분석한 제미나이 1.5에 "주머니에서 종이를 꺼내는 순간을 찾고 주요 정보를 요약해 줘"라고 명령했다. 모델은 1분 내로 전당포 티켓이 주머니에서 꺼내지는 장면을 집어냈다. 촬영된 티켓의 시각적 정보를 파악해 티켓 서명한 등장인물까지 부연했다.


사람이 그린 조악한 낙서도 명령으로서 이해했다.

시연 팀은 물탱크에서 쏟아지는 물을 맞는 사람을 조악한 낙서로 그려 제미나이에 보여준 뒤 "이 순간이 언제야"라고 물었다.

이 명령에도 제미나이는 1분 내로 해당 장면에 해당하는 영상 시간대를 답했다.

legomaster@news1.kr

Copyright ⓒ 뉴스1. All rights reserved. 무단 전재 및 재배포, AI학습 이용 금지.

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1브리지트 바르도 별세
    브리지트 바르도 별세
  2. 2한학자 통일교 조사
    한학자 통일교 조사
  3. 3박근형 이순재 별세
    박근형 이순재 별세
  4. 4강민호 FA 계약
    강민호 FA 계약
  5. 5이혜훈 발탁 탕평인사
    이혜훈 발탁 탕평인사

뉴스1 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD