(사진=유튜브) |
메타가 출시한 인공지능(AI) 모델 '라마 4 매버릭(Maverick)'과 벤치마크 테스트에 사용한 버전이 서로 다른 것으로 알려져 논란이다. 테스트 결과를 높이기 위해 별도로 최적화된 모델을 활용한 사실이 드러나며, AI 성능 평가의 공정성과 신뢰성에 대한 의문이 제기되고 있다.
테크크런치는 6일(현지시간) 메타가 전날 출시한 새로운 오픈 소스 멀티모달모델( LMM) '라마 4 매버릭'이 성능 비교 벤치마크인 LM 아레나에서 2위를 차지했지만, 테스트에 사용된 버전과 개발자들에게 공개된 일반 버전 간 차이가 논란이 되고 있다고 보도했다.
https://twitter.com/TheXeophon/status/1908900306580074741
하지만 여러 AI 연구자들은 이날 X(트위터)를 통해 메타가 LM 아레나에 사용한 매버릭이 공개된 것과는 다른 '실험적 대화용(experimental chat) 버전'이라고 지적했다.
사용자들이 다운로드해 사용할 수 있는 일반 공개 버전의 매버릭과 LM 아레나에 올라간 매버릭은 행동 패턴에서 뚜렷한 차이를 보인다고 전했다. 이에 따르면, LM 아레나 버전은 이모지를 자주 사용하고 답변이 지나치게 길어지는 경향이 있지만, 공개 버전에서는 이런 특성이 덜하다는 분석이 나왔다.
메타는 공식 발표를 통해 LM 아레나에 사용된 버전을 '라마-4-매버릭-03-26-익스페리멘털' 모델이라고 설명했으며, 라마 웹사이트에 공개된 자료에도 LM 아레나 테스트가 "대화 최적화를 거친 라마 4 매버릭으로 진행됐다"라고 명시했다.
벤치마크에 최적화된 별도 모델을 테스트에 사용하고, 사용자에게는 다른 모델을 배포하는 방식이 신뢰도와 투명성 측면에서 문제가 있다고 비판이 일고 있다.
특히 성능 비교 지표로 활용되는 LM 아레나의 결과가 개발자들이 실제로 사용할 수 있는 모델과 차이가 클 경우, 기대와 실제 성능 사이가 커질 수 있다는 것이다.
그동안 대부분 AI 기업은 LM 아레나 점수를 높이기 위해 별도의 튜닝이나 최적화를 진행하지 않았고, 적어도 이를 공개적으로 인정한 적은 없었다.
따라서 메타의 이번 사례는 벤치마크 테스트의 공정성과 AI 모델 평가의 신뢰성 문제를 제기하고 있다는 평이다.
또 전문가들은 벤치마크는 하나의 모델이 다양한 작업에서 얼마나 잘 수행되는지를 가늠하는 지표가 되어야 하며, 이를 위해 동일한 버전의 모델이 테스트와 배포에 함께 사용돼야 한다고 지적했다.
박찬 기자 cpark@aitimes.com
<저작권자 copyright ⓒ ai타임스 무단전재 및 재배포 금지>