본문 바로가기

뉴스

사카나 AI, 모델 병합으로 성능 높이는 '사이클QD' 공개..."미세조정보다 탁월"

댓글0
[박찬 기자]
AI타임스

(사진=사카나 AI)


구글 출신 연구원들이 설립한 사카나 AI가 다양한 작업에 특화된 수백개의 언어 모델을 효율적으로 통합, 더 뛰어난 모델을 만들어내는 프레임워크를 개발했다. 이를 통해 사전 훈련이나 미세조정 없이도 인공지능(AI) 모델이 계속 진화할 수 있게 한다는 내용이다.

벤처비트는 6일(현지시간) 사카나 AI가 특정 기술에 특화된 전문 언어모델들을 서로 결합해 복합 기술을 가진 새로운 모델을 생성하는 사후 훈련 프레임워크 '사이클QD(CycleQD)'를 공개했다고 보도했다.

사카나 AI는 지난 3월 수백세대에 걸친 모델 병합(Merge)를 통해 모델을 진화하는 독특한 방식을 공개해 관심을 모았던 스타트업이다.

'트랜스포머' 논문 저자 중 한명인 릴리언 존스와 '월드 모델'의 기본 개념을 만들어낸 데이비드 하 구글 연구원이 회사를 공동 창립했다. 또 미국이 아닌 도쿄에 본사를 두고 일본어 전문 모델과 고학 연구 전문 모델 등을 개발해 화제가 됐다.

이번에 공개한 사이클QD도 큰 모델을 처음부터 훈련하는 대신, 각자 다른 모델의 역량을 결합하는 방식이다. 이를 통해 비용이 많이 들고 시간이 오래 걸리는 훈련 과정을 생략한다는 것이 핵심이다.

이 기술은 대형언어모델(LLM)의 사후 훈련 파이프라인에 품질 다양성(QD)을 통합해 새로운 복합 기술을 학습할 수 있도록 지원한다.

예를 들어 사이클QD는 코딩이나 데이터베이스 작업 등 특정 기술에 맞게 미세조정된 여러 소형 모델들을 다양한 조합으로 결합, 새로운 변형 모델을 생성할 수 있다.

AI타임스

사카나는 모델의 병합으로 새롭게 만들어낼 기술을 '행동 특성(BC)'이라고 부른다. 즉, 병합될 모델들은 BC를 목표로 한다.

사이클QD는 특정 기술에 특화된 전문 LLM 세트에서 시작, '교차(Crossover)'와 '변이(Mutation)' 작업 등을 적용해 더 높은 품질의 모델을 만들어낸다.

이중 교차는 두 부모 모델의 특성을 결합하는 작업이다. 이는 모델 병합 기법을 활용, 두 LLM의 매개변수를 결합해 다양한 기술을 갖춘 새로운 모델을 생성한다. 이를 통해 모델을 재학습하거나 미세조정할 필요 없이 빠르고 비용 효율적으로 다재다능한 모델을 개발할 수 있다.

변이는 모델의 매개변수에 무작위로 변화를 줘, 새로운 가능성을 탐구하는 작업이다. 이 과정에서 특이값 분해(SVD)를 사용해 모델의 기술을 기본적인 요소나 하위 기술로 분해한다.

SVD는 복잡한 행렬을 간단한 구성 요소로 나누어 이해하고 조작할 수 있도록 돕는 방법이다. 사이클QD는 SVD를 활용해 모델의 기술을 세분화하고, 하위 기술들을 조정해 부모 모델보다 더 높은 성능을 발휘하는 새로운 모델을 만든다.

이를 통해 모델이 예측 가능한 패턴에 갇히는 것을 방지하고, 과적합의 위험을 줄일 수 있다는 설명이다.

AI타임스

연구진은 사이클QD를 코딩과 데이터베이스 작업, 운영 체제 작업에 특화된 '라마 3-8B' 모델에 적용, 다른 모델의 기술을 결합해 더 뛰어난 모델을 만들 수 있는지 실험했다.

그 결과, 사이클QD는 평가된 작업들에서 전통적인 미세조정 및 모델 병합 방법들을 능가하는 성과를 보였다.

특히 기존처럼 미세조정을 사용한 모델은 더 많은 데이터로 훈련했지만 단일 전문 모델보다 성능 향상이 미미했다. 또 전통적인 훈련 과정은 더 느리고 비용이 많이 들었다.

반면 ,사이클QD는 목표 작업에 대해 성능 수준이 다른 다양한 모델들을 효율적으로 생성할 수 있었다고 전했다.

연구진은 사이클QD가 "AI 시스템의 평생 학습을 가능하게 할 잠재력을 가지고 있다"라고 전했다. 엄청난 비용이 드는 사전 훈련이나 미세조정 대신, 러 전문가 모델들의 기술을 지속적으로 결합하는 방식으로 시간이 흐르면서 계속 성장하고 적응하며 지식을 쌓을 수 있는 구조라는 설명이다.

또 이를 통해 최근 화두인 멀티 에이전트 시스템의 개발도 가능할 것으로 보고 있다. 여러개의 에이전트 모델을 병합, 한대의 모델이 다양한 기능을 갖춘다는 논리다.

사카나 AI측은 "과학적 발견부터 실제 문제 해결까지, 전문화된 에이전트들이 모인 집단이 AI의 한계를 뛰어넘는 방식으로 발전할 수 있을 것"이라고 강조했다.

박찬 기자 cpark@aitimes.com

<저작권자 copyright ⓒ ai타임스 무단전재 및 재배포 금지>
기사가 속한 카테고리는 언론사가 분류합니다.
언론사는 한 기사를 두 개 이상의 카테고리로 분류할 수 있습니다.

이 기사를 본 사람들이 선택한 뉴스

  • 한겨레베이조스의 야심작 ‘뉴글렌’ 로켓 첫 발사
  • 쿠키뉴스의협 부회장 된 대전협 박단…“교육부, 의대교육 ‘플랜B’ 제시해야”
  • 경향신문트럼프 눈치보는 메타···이용자들 떠난다
  • 이데일리“구글 AI 칩, 훈련 성능 4배↑…카카오도 ‘카나나’ 훈련에 활용”
  • 스마트PC사랑라이젠 9800X3D를 가장 잘 다룰 수 있는 메인보드, ASUS ROG CROSSHAIR X870E HERO

쇼핑 핫아이템

AD