[박찬 기자]
알리바바가 추론에 특화된 오픈 소스 대형언어모델(LLM)로 주요 벤치마크에서 폐쇄형 모델을 넘거나 맞먹는 첨단 성능을 기록했다. 이처럼 지난 일주일간 4종의 차세대 모델을 공개하는 등 오픈 소스 진영 최강자로 자리를 굳히고 있다.
알리바바는 25일(현지시간) 새로운 추론 특화 LLM '큐원3-235B-A22B-싱킹-2507'을 출시했다.
이는 지난 4월28일 공개한 '큐원3-235B-A22B'를 추론 모델로 업데이트한 것이다. 별도로 공개된 큐원3-235B-A22B-인스트럭트-2507은 '명령 수행(비추론)'에 집중한 구조다.
(사진=셔터스톡) |
알리바바가 추론에 특화된 오픈 소스 대형언어모델(LLM)로 주요 벤치마크에서 폐쇄형 모델을 넘거나 맞먹는 첨단 성능을 기록했다. 이처럼 지난 일주일간 4종의 차세대 모델을 공개하는 등 오픈 소스 진영 최강자로 자리를 굳히고 있다.
알리바바는 25일(현지시간) 새로운 추론 특화 LLM '큐원3-235B-A22B-싱킹-2507'을 출시했다.
이는 지난 4월28일 공개한 '큐원3-235B-A22B'를 추론 모델로 업데이트한 것이다. 별도로 공개된 큐원3-235B-A22B-인스트럭트-2507은 '명령 수행(비추론)'에 집중한 구조다.
전문가 혼합(MoE) 구조를 채택, 총 2350억개의 매개변수 중 220억개만 활성화된다. 사고 사슬(CoT)과 자기 검증(self-checking)을 통해 복잡한 문제에서 더 뛰어난 답변을 제공한다.
이 모델의 성능은 벤치마크로 확인됐다.
수학 능력을 평가하는 'AIME25' 벤치마크에서 92.3점을 기록했다. 이는 오픈AI의 'o4-미니(92.7점)'와 구글의 '제미나이 2.5 프로(88.0점)'를 넘거나 근접한 수치다.
'라이브코드벤치(LiveCodeBench) v6'에서는 74.1점을 기록, 제미나이 2.5 프로(72.5)와 o4-미니(71.8)를 모두 앞섰다. 대학원 수준 고학 상식 테스트인 'GPQA'와 사용자 선호도 기반 정렬 평가 '아레나-하드(Arena-Hard) v2'에서도 선두권을 기록했다.
We're excited to introduce Qwen3-235B-A22B-Thinking-2507 — our most advanced reasoning model yet!
Over the past 3 months, we've significantly scaled and enhanced the thinking capability of Qwen3, achieving:
✅ Improved performance in logical reasoning, math, science & coding… pic.twitter.com/vO6UHlW7pf
— Qwen (@Alibaba_Qwen) July 25, 2025
허깅페이스와 모델스코프에서 무료 다운로드가 가능하며, 모델을 자유롭게 수정하거나 상업적 용도로 사용할 수 있다.
자체 호스팅이 어려운 기업을 위해 클라우드 기반 API 요금도 제공되며, 입력 100만 토큰당 0.7달러, 출력 100만 토큰당 8.4달러 책정됐다. 무료 티어는 100만 토큰 한도로 180일 간 제공한다.
앞서 알리바바는 지난 23일 '클로드 소네트 4'의 성능에 맞먹는 코딩 전용 모델 '큐원3-코더480B-A35B-인스트럭트'를 공개했다. 이 모델은 100만 토큰 컨텍스트 창을 지원하며 'SWE-벤치 베리파이드'에서 GPT-4.1과 제미나이 2.5 프로를 능가했다.
그 며칠 전에는 비추론 언어모델 중 최고 성능을 자랑하는 '큐원3-235B-A22B-2507'도 내놓았다. 이 모델은 '클로드 오퍼스 4'를 여러 벤치마크에서 능가했다. FP8 경량화 버전을 통해 제한된 하드웨어에서도 효율적인 추론을 지원한다.
이 밖에도 92개 이상의 언어를 지원하는 다국어 번역 모델 '큐원3-MT'도 선보였다. 도메인 맞춤화와 용어 컨트롤 능을 제공하고 100만 토큰당 0.50달러로 저렴한 추론 비용을 제공한다.
이처럼 알리바바는 오픈 소스, 특히 중국을 대표하는 AI 기업으로 자리 잡았다. 이달 초에는 문샷이 '키미 K2'로 역전을 노렸으나, 불과 며칠 만에 알리바바에 다시 역전됐다.
또 딥시크가 R2 출시를 준비 중인 것으로 알려졌지만, 이미 큐원3는 추론, 비추론, 코딩, 멀티모달, 다국어 등 다양한 글로벌 정상급 라인업을 갖춘 상태다.
박찬 기자 cpark@aitimes.com
<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>































































