[박찬 기자]
구글이 공개한 '제미나이(Gemini)'의 경량 버전 '제미나이 프로'가 출시 1년이 된 오픈AI 'GPT-3.5 터보'보다 성능이 떨어진다는 첫 외부 테스트 결과가 나왔다. 오픈AI의 'GPT-4'보다 제미나이의 성능이 앞선다는 구글의 주장이 과장일 수 있다는 지적이 사실로 받아 들여지는 분위기다.
벤처비트는 19일(현지시간) 카네기 멜론 대학교와 스타트업 베리AI의 연구진이 구글의 제미나이 프로, 오픈AI의 GPT-3.5 터보 및 GPT-4 터보, 오픈 소스 '믹스트랄 8x7B' 등 4가지 대형언어모델(LLM)을 비교 테스트한 결과를 아카이브에 게재했다고 소개했다.
이에 따르면 제미나이 프로는 GPT-3.5 터보 현재 버전과 비슷한 성능이거나 약간 낮은 정확도를 기록한 것으로 나타났다.
(사진=셔터스톡) |
구글이 공개한 '제미나이(Gemini)'의 경량 버전 '제미나이 프로'가 출시 1년이 된 오픈AI 'GPT-3.5 터보'보다 성능이 떨어진다는 첫 외부 테스트 결과가 나왔다. 오픈AI의 'GPT-4'보다 제미나이의 성능이 앞선다는 구글의 주장이 과장일 수 있다는 지적이 사실로 받아 들여지는 분위기다.
벤처비트는 19일(현지시간) 카네기 멜론 대학교와 스타트업 베리AI의 연구진이 구글의 제미나이 프로, 오픈AI의 GPT-3.5 터보 및 GPT-4 터보, 오픈 소스 '믹스트랄 8x7B' 등 4가지 대형언어모델(LLM)을 비교 테스트한 결과를 아카이브에 게재했다고 소개했다.
이에 따르면 제미나이 프로는 GPT-3.5 터보 현재 버전과 비슷한 성능이거나 약간 낮은 정확도를 기록한 것으로 나타났다.
제미나이 프로는 제미나이의 3가지 버전 중 중간급 크기의 모델로, AI 챗봇인 바드에 맞춰 광범위한 작업에 걸쳐 확장 가능하도록 설계됐다. 매우 복잡한 작업을 위한 가장 크고 뛰어난 제미나이 '울트라'는 내년으로 출시가 밀렸다.
구글은 모델 공개 당시 자체 테스트를 토대로 제미나이 프로가 GPT-3.5 터보보다 성능이 뛰어나며, 내년 초에 출시될 제미나이 울트라는 GPT-4보다 더 높은 점수를 받았다고 밝힌 바 있다.
하지만 이번에 연구진이 실시한 '지식 기반 질의응답' 테스트의 일환으로 STEM, 인문학, 사회 과학 전반에 걸쳐 57개의 객관식 질문을 통해 4가지 모델들을 테스트한 결과는 구글의 말과 달랐다. 제미나이 프로는 GPT 3.5 터보보다 성능이 떨어졌으며, GPT-4와는 비교도 안 됐다.
또 LLM에 A, B, C, D로 표시된 답변 중에서 사지선다형으로 답을 선택하도록 요청했을 때, 제미나이 프로는 정답 여부에 관계없이 다른 모델보다 특히 'D'를 더 많이 선택한 것으로 알려졌다.
연구진은 "제미나이는 D를 최종 선택하는 쪽으로 편향돼 있다"라며 "이는 제미나이가 객관식 문제를 해결하기 위해 훈련을 크게 조정하지 않았음을 의미할 수 있으며, 이로 인해 답변 순서와 관련해 모델이 편향될 수 있다"라고 설명했다.
또 인간의 성, 형식 논리, 초등 수학 및 전문 의학과 같은 특정 범주의 질문에서 제미나이 프로의 성능이 크게 떨어지는 것을 확인했다. 연구진은 "제미나이가 안전 및 콘텐츠 제한으로 인해 일부 질문에 답변을 거부했으며 이것이 잘못된 응답으로 반영되어 결과에 큰 영향을 미쳤다"라고 밝혔다.
보안과 고등학교 미시경제학과 같은 범주의 객관식 질문에서 GPT-3.5 터보보다 뛰어난 성능을 보였지만, 차이는 미미한 수준이었다. 테스트 모델 중에서 가장 뛰어난 성능을 보인 것은 GPT-4였다.
LLM에게 문제를 읽고 올바른 답변이라고 생각하는 대답을 내놓도록 요청하는 '일반 목적 추론'이라는 주관식 유형의 질문에서도 마찬가지였다. 제미나이 프로는 길고 복잡한 질문에서 성능이 저하됐지만, GPT 모델은 강력한 성능을 발휘했다.
수학과 수학적 추론, 프로그래밍에서도 비슷한 양상이 이어졌다.
인터넷을 탐색하고 프롬프트 지침에 따라 사용자를 대신하여 작업을 완료하는 '웹 에이전트' 역할을 요청했을 때도 제미나이 프로는 GPT-3.5 터보와 비슷하거나 약간 더 나쁜 성능을 나타냈다.
하지만 제미나이 프로는 언어 간 번역에서 가장 뛰어난 실력을 보였다. 연구진은 "제미니 프로는 20개 언어 중 8개에서 GPT-3.5 터보 및 GPT-4 터보를 능가하며, 4개 언어에서 최고의 성능을 기록했다"라고 말했다.
그러나 여기에서도 "제미니 프로는 대략 10개 언어 쌍에서 응답을 거부하는 경향을 보였다"라고 덧붙였다. 이는 과도한 콘텐츠 관리 및 안전 시스템이 적용돼 있음을 시사한다.
이번 결과로 구글은 타격을 입을 가능성이 크다. 지난 주에는 멀티모달 시연 비디오의 조작 논란에도 휩싸였다.
울트라 모델이 내년에 출시, 객관적인 벤치마크에서 앞서기 전까지 구글은 여전히 오픈AI에 뒤진다는 평가를 받게 됐다.
한편 디 인포메이션은 지난달 구글이 제미나이 울트라의 공개를 미룬 배경에는 라이벌 GPT-4 성능을 뛰어넘는지 내부에서 확신하지 못했다는 보도를 내놓기도 했다. 이번 프로 버전의 테스트 결과는 충분히 그럴 가능성이 있다는 것을 시사한다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>




























































