[박찬 기자]
구글의 '제미나이 3'가 새로운 인간 선호도 평가에서 현존 최고 모델로 꼽혔다. 특히 모델의 신뢰와 윤리, 안전 분야에서는 역대 최고 점수의 4배가 넘는 선호를 기록했다.
데이터 리서치 전문 프로리픽은 4일(현지시간) 구글의 제미나이 3가 '휴메인(HUMAINE)' 벤치마크에서 전체 1위에 올랐다고 밝혔다.
휴메인 벤치마크는 기존처럼 정해진 문제를 푸는 방식이 아니라, 실제 사용자가 관심 있는 주제를 가지고 다중 턴 대화를 진행한 뒤 두 모델을 블라인드로 비교 평가하는 것이 특징이다.
(사진=셔터스톡) |
구글의 '제미나이 3'가 새로운 인간 선호도 평가에서 현존 최고 모델로 꼽혔다. 특히 모델의 신뢰와 윤리, 안전 분야에서는 역대 최고 점수의 4배가 넘는 선호를 기록했다.
데이터 리서치 전문 프로리픽은 4일(현지시간) 구글의 제미나이 3가 '휴메인(HUMAINE)' 벤치마크에서 전체 1위에 올랐다고 밝혔다.
휴메인 벤치마크는 기존처럼 정해진 문제를 푸는 방식이 아니라, 실제 사용자가 관심 있는 주제를 가지고 다중 턴 대화를 진행한 뒤 두 모델을 블라인드로 비교 평가하는 것이 특징이다.
이를 통해 성능 및 추론 (Core Task Performance & Reasoning) 상호작용 및 적응성 (Interaction Fluidity & Adaptiveness) 커뮤니케이션 스타일 (Communication Style & Presentation) 신뢰, 윤리 및 안전(Trust, Ethics & Safety) 등에서 2만6000명의 선호도를 측정했다.
평가 결과에 따르면, 제미나이 3 프로는 특히 '신뢰, 윤리 및 안전' 항목에서 67.4%를 기록, 이전 버전인 '제미나이 2.5 프로'의 16.5%에서 크게 상승했다. 이는 프로리픽 사상 가장 높은 기록이다.
이를 포함해 전체 4개 평가 영역 중 3개 부문에서 1위를 차지하며 전반적인 우위를 입증했다.
다만, '커뮤니케이션 스타일' 부문에서는 '딥시크-V3'가 43%의 선호도를 얻어 1위를 차지했다.
신뢰, 윤리 및 안전 리더보드. P(BEST)는 테스트 반복 시 1위로 선택될 확률을 나타낸다. (사진=프로리픽) |
이번 평가의 특징은 연령·성별·인종·정치 성향 등 22개 인구통계학적 집단 전반에서 제미나이 3가 고르게 우수한 성능을 보였다는 점이다.
펠럼 브래들리 프로리픽 CEO는 "몇몇 상황에서는 다른 모델이 선호되기도 했지만, 다양한 사용자층과 주제에서 일관된 성능을 낸 모델은 제미나이 3가 유일했다"라고 밝혔다.
이번 평가의 핵심은 대표성이 있는 인간 평가자들이 직접 모델을 사용해 비교한다는 점에 있다. 미국과 영국 인구 구성을 반영해 대표 표본을 꾸리고, 참가자들이 두개의 모델과 동시에 대화를 나누도록 했다.
모델 이름은 모두 비공개 처리됐으며, 대화 주제는 평가자가 원하는 내용을 선택하도록 했다. 이런 구조를 통해 실제 사용 환경에 가장 가까운 형태로 모델의 성능과 선호도를 측정할 수 있도록 했다.
브래들리 CEO는 기존 리더보드가 지나치게 정적이며 실제 사용자 환경을 반영하지 못한다고 비판했다. 모델의 성능과 선호도는 연령, 성별, 정치적 성향 등 사용자 특성에 따라 상당히 다른 양상을 보이기 때문에, 동일한 평가라도 전혀 다른 순위표가 나올 수 있다는 것이다. "사용자의 이념 성향이나 나이에 따라 결과 자체가 달라진다"라며 이런 차이를 간과해서는 안 된다고 강조했다.
제미나이 3는 기술 스펙이나 개발사 주도의 벤치마크가 아닌, 실제 사용자 경험에 기반한 대규모 블라인드 테스트에서 최종 1위에 오른 셈이다. 이를 통해 현실 환경에서 가장 높은 신뢰를 받는 모델이라는 점이 입증됐다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>




























































