컨텐츠로 건너뛰기
뉴스
서울
흐림 / 7.0 °
매일경제 언론사 이미지

AI, 한국 변호사시험 통과할 수 있을까...고난도 韓 벤치마크 등장

매일경제 정호준 기자(jeong.hojun@mk.co.kr)
원문보기
대표적인 한국어 벤치마크 ‘KMMLU’ 심화판
KMMLU-Redux와 KMMLU-Pro 개발
14개의 국가 전문자격시험 문제 포함해
한국 변호사 시험, 앤스로픽이 유일하게 통과


전문적인 한국어 지식을 평가하는 새로운 벤치마크 ‘KMMLU-Pro’에서 AI 모델들이 14개의 국가 전문 자격 시험을 통과했는지 보여주는 장표. 평균 점수는 오픈AI의 ‘o1’ 모델이 79.55%의 정확도로 가장 높았지만 앤스로픽의 ‘클로드 3.7 소넷’이 12개 시험을 통과하며 가장 고른 성능을 보였다. [출처 = arXiv 논문 캡처]

전문적인 한국어 지식을 평가하는 새로운 벤치마크 ‘KMMLU-Pro’에서 AI 모델들이 14개의 국가 전문 자격 시험을 통과했는지 보여주는 장표. 평균 점수는 오픈AI의 ‘o1’ 모델이 79.55%의 정확도로 가장 높았지만 앤스로픽의 ‘클로드 3.7 소넷’이 12개 시험을 통과하며 가장 고른 성능을 보였다. [출처 = arXiv 논문 캡처]


거대언어모델(LLM) 성능 테스트를 위한 벤치마크에서 한국 대표 벤치마크 중 하나로 꼽히는 ‘KMMLU’의 난이도를 높여 개선한 심화 벤치마크가 등장했다.

AI 모델이 변호사·의사 등 한국의 전문직 시험을 통과할 수 있는지 평가하는 것이 핵심이다. 평균 점수에서는 오픈AI 모델이 1위를 기록하고, 앤스로픽이 유일하게 변호사 시험을 통과하는 등 글로벌 빅테크 모델들의 성과가 두드러졌다.

17일 AI 업계에 따르면 국내 오픈소스 언어모델 연구팀인 해례(HAERAE)와 LG AI연구원은 이달 새로운 벤치마크 ‘KMMLU-Redux’와 ‘KMMLU-Pro’를 소개하는 논문을 발표했다.

두 개의 벤치마크는 해례가 앞서 개발한 KMMLU를 보완해 개발한 후속 벤치마크다.

기존 KMMLU는 문학, 사회학, 과학·기술 등 45개 분야에서 전문가 수준의 지식을 묻는 3만5030개 문항으로 구성되어 있다. 네이버, LG AI연구원, SKT, 카카오 등 AI 모델을 만드는 대부분의 국내 기업이 참조하는 핵심 지표 중 하나로 꼽힌다.

연구진은 “기존 벤치마크는 문제들이 이미 온라인에 공개되어 있는 등 신뢰성과 데이터 오염 측면에서 우려가 있었다”라며 벤치마크를 새롭게 개발하게 된 배경을 설명했다. 연구진에 따르면 KMMLU 테스트를 구성하는 데이터 중 7.66%가 정답 노출, 불완전한 질문 등의 오류를 포함하고 있었다.


KMMLU-Redux 벤치마크는 이러한 문제를 해결하기 위해 KMMLU의 문제를 재구성하고 정제하여 총 2587개의 문제로 구성됐다. 신뢰성 향상을 위해 한국의 국가 전문 자격 시험 문제들을 포함해 난이도를 높였다.

평균 점수에선 오픈AI가 79.55% 정확도로 1위
앤스로픽 클로드는 14개 시험 중 12개 통과해
KMMLU-Pro는 변호사, 회계사, 의사 등 14개의 국가전문자격시험에 해당하는 문제들을 포괄해 총 2822개의 문제로 구성됐다. 연구진은 각 자격증의 공식 출처에서 직접 데이터를 수집해 데이터 품질을 높였다.

KMMLU-Pro는 AI 모델이 한국 내 다양한 전문 분야에 필요한 시험에 통과할 수 있는지를 중점적으로 평가하는 것이 특징이다. 14개의 시험 중 AI 모델이 몇 개를 통과하는지를 측정한다.


논문에 따르면 새 벤치마크 KMMLU-Redux에서 가장 높은 점수를 기록한 것은 오픈AI의 추론형 모델 ‘o1’으로, 평균 79.55%의 정확도를 기록했다. 10개의 문제 중 8개의 문제에서 정답을 맞췄다는 의미다.

o1처럼 추론 능력을 갖춘 AI 모델들이 대부분 더 나은 성능을 보였다.

o1 모델에 이어 이어 앤스로픽의 클로드 3.7 소넷이 78.49%를 기록했으며 중국 딥시크의 R1 모델은 74.76%, 메타의 라마4 매버릭 17B 모델은 72.63%로 집계됐다. 한국 모델 중에서는 LG AI연구원의 추론 모델 엑사원 딥(Deep) 32B 모델이 55.20%의 정확도를 기록했다.


네이버와 카카오의 경우 오픈소스로 공유했던 경량 모델들의 점수만 공개됐는데, 두 모델 모두 30% 내외의 정확도를 보였다.

14개의 전문직 시험에서는 앤스로픽의 클로드 3.7 소넷이 12개의 시험을 통과하며 10개 시험을 통과한 오픈AI의 o1 모델을 앞섰다.

많은 모델이 의학 분야 시험은 통과했지만, 법률 및 세무 영역에서는 고전했다. 한국 변호사시험을 통과한 모델은 클로드 3.7 소넷이 유일했다. 법률의 영역은 국가마다 차이가 큰 만큼, 국내 법률에 특화된 도메인 지식이 부족한 경우 통과가 쉽지 않은 것으로 풀이된다.

한편 연구진은 이번 벤치마크는 “텍스트 기반의 문제 및 객관식 문제로 한정되어 있어 한계가 존재한다”라고 밝혔다. 실제 시험은 이미지와 함께 주관식 답변 등이 필수적으로 포함되는 만큼, 벤치마크가 멀티모달과 주관식 문제를 포함할 수 있도록 확장해야 한다는 설명이다.

[ⓒ 매일경제 & mk.co.kr, 무단 전재, 재배포 및 AI학습 이용 금지]

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1응팔 10주년 류준열 혜리
    응팔 10주년 류준열 혜리
  2. 2전재수 통일교 의혹 조사
    전재수 통일교 의혹 조사
  3. 3김단비 우리은행 4연승
    김단비 우리은행 4연승
  4. 4정관장 인쿠시 데뷔
    정관장 인쿠시 데뷔
  5. 5민희진 보이그룹 뉴진스
    민희진 보이그룹 뉴진스

매일경제 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD