컨텐츠로 건너뛰기
뉴스
서울
맑음 / 1.0 °
AI타임스 언론사 이미지

미스트랄, GPT-4의 'MoE' 방식 도입한 '믹스트랄 8x7B' 공개

AI타임스 박찬
원문보기
[박찬 기자]
(사진=셔터스톡)

(사진=셔터스톡)


프랑스의 간판 스타트업 미스트랄 AI가 'GPT-4'와 유사한 아키텍처를 가진 미니 모델을 공개했다. 작지만 강력한 성능을 갖춘 '소형 GPT-4'라는 설명이다.

벤처비트는 8일(현지시간) 미스트랄 AI가 '믹스트랄 8x7B(Mixtral 8x7B)' 모델을 오픈 소스로 출시했다고 보도했다.

이에 따르면 믹스트랄 8x7B는 지난 9월 출시한 '미스트랄 7B' 모델이 기반으로, GPT-4가 도입한 '전문가 믹스(MoE, Mixture of Experts)' 접근 방식을 채택해 실행 비용과 시간을 크게 줄였다.

MoE는 대형언어모델(LLM)을 생물, 물리, 수학 등 각 분야를 담당하는 작은 전문 모델(Expert)로 쪼개고, 질문에 따라 전문 모델을 연결하거나 몇 종류를 섞는 방식이다. 이 경우 전체 큰 모델을 돌리는 것보다 비용과 시간이 훨씬 적게 들어간다.

오픈AI가 일반인공지능(AGI)을 겨냥해 개발하다 중단한 '아라키스(Arrakis)' 모델도 MoE를 통해 추론 비용을 GPT-4와 흡사한 수준으로 유지하려고 시도했던 것으로 알려졌다. GPT-4도 올여름부터 MoE를 적용한 것으로 알려졌다.

미스트랄 AI는 "GPT-4는 생물, 물리, 수학 등 각 분야를 담당하는 각각 1110억 매개변수를 가진 16개 작은 전문 모델(Expert)로 쪼개고, 2개의 전문 모델이 각 토큰의 추론을 담당하는 방식으로 구축된 것으로 파악했다"라고 밝혔다.


이를 참고삼아, 믹스트랄 8x7B는 70억 매개변수를 가진 8개의 전문 모델로 구성하고 추론을 위해 토큰당 2개의 전문 모델을 할당했다. GPT-4에 비해 전문 모델 수는 2배, 모델당 매개변수는 24배 축소해 효율을 극대화했다. 또 GPT-4와 유사한 32K 컨텍스트 크기를 지원한다.

이런 설계 방식을 통해 처리 효율성과 속도를 최적화할 뿐만 아니라, 고급 서버부터 엣지 AI까지 다양한 컴퓨팅 환경에 유연하게 적응할 수 있다는 설명이다. 믹스트랄 8x7B을 실행하려면 80GB GPU 2개 또는 40GB GPU 4개가 필요하다고 소개했다.

이로 인해 믹스트랄 8x7B는 AI 환경에서 강력하면서도 접근하기 쉬운 도구라고 강조했다. 강력하고 효율적이며 더 광범위한 사용자와 애플리케이션에 접근할 수 있다고 전했다.



한편 미스트랄 AI는 별도의 보도자료 배포나 공개 행사 없이 X(트위터)를 통해 토렌트 다운로드 링크만 공개하는 방식으로 모델을 배포했다. 최근 논란이 된 구글의 '제미나이나' 발표나 오픈AI의 'GPT-4 터보' 출시 행사와는 대조를 이뤘다.

이는 미스트랄 AI가 자주 사용하는 배포 방식으로, AI 모델 설계 및 출시에 대한 새로운 표준을 만들었다는 평가도 받고 있다.

한편 10일 뉴욕타임스에 따르면 미스트랄 AI는 20억달러의 기업가치로 3억8500만유로(약 5500억원) 규모의 투자를 유치, 설립 6개월 만에 유니콘 기업에 등극했다.


또 지난 주말 펼쳐진 EU의 AI 법 협상에서도 화제의 중심이었다. EU는 미스트랄 AI 등 오픈 소스 모델에 대해서는 투명성을 이유로 강력한 규제를 펼치지 않기로 했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1패스트트랙 사건 벌금형
    패스트트랙 사건 벌금형
  2. 2안세영 야마구치
    안세영 야마구치
  3. 3전현무 차량 링거 해명
    전현무 차량 링거 해명
  4. 4대전 충남 통합 추진
    대전 충남 통합 추진
  5. 5민중기 특검 편파수사 의혹
    민중기 특검 편파수사 의혹

AI타임스 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD