컨텐츠로 건너뛰기
뉴스
서울
맑음 / -3.9 °
AI타임스 언론사 이미지

구글, 소형 모델 추론 능력 향상하는 학습 프레임워크 'SRL' 공개

AI타임스
원문보기
[박찬 기자]

강화 학습(RL)과 지도 학습(SFT)의 강점을 결합해, 소형 모델의 추론 성능을 끌어올리는 새로운 학습 방식이 제시됐다.

구글과 UCLA 연구진은 13일(현지시간) 소형 모델의 고난도 다단계 추론 능력을 크게 향상하는 새로운 RL 기반 훈련법 '지도 강화학습(Supervised Reinforcement Learning, SRL)'을 온라인 아카이브를 통해 공개했다.

이 프레임워크는 문제를 해결하는 과정을 여러 단계의 논리적인 '행동(action)'으로 나눠, 모델이 단계마다 충분히 학습할 수 있도록 만든 방식이다.

SRL은 기존 소형 모델이 학습하기 어려웠던 복잡한 수학 문제나 단계별 의사결정이 필요한 에이전트형 소프트웨어 엔지니어링 작업에서도 뛰어난 성능을 보였다. 연구진은 "SRL이 적은 비용의 소형 모델도 고차원적 추론 능력을 구현할 수 있게 해주는 만능형 훈련 프레임워크"라고 평가했다.

연구진은 기존 보상 기반 강화 학습(RLVR)과 지도 미세조정(SFT)이 가진 구조적 한계를 지적했다. RLVR은 최종 정답의 '정·오답'을 보상으로 삼기 때문에, 여러 단계를 맞게 풀어도 마지막 실수로 인해 전 과정이 실패로 처리된다. 이로 인해 학습이 매우 느리거나 사실상 불가능해지는 문제가 발생했다는 것이다.

또, SFT는 인간 전문가의 풀이 과정을 그대로 모방하도록 훈련하지만, 모델이 데이터에 과적합돼 새로운 문제에 일반화하지 못한다는 약점이 있었다.



SRL은 문제를 해결하는 과정을 여러 단계의 결정 과정으로 나눠 학습하는 방식이다.

기존 RVRL이나 SFT처럼 결과만 맞추거나 전문가의 모든 사고 과정을 그대로 따라 하게 하지 않고, 전문가가 문제를 풀 때 거치는 중요한 행동(action)들을 모델이 따라 하도록 가르친다. 덕분에 모델은 전문가와 비슷한 행동을 배우면서도 스스로 생각하는 방식, 즉 내부 추론 능력을 키울 수 있다.

SRL에서는 전문가가 문제를 푸는 과정을 의미 있는 단계별 행동으로 나눈다. 예를 들어, 수학 문제에서는 대수를 계산하는 것이 하나의 행동이 될 수 있고, 소프트웨어 에이전트에서는 코드 저장소에서 명령을 실행하는 것이 하나의 행동이 된다. 모델을 학습하기 위해 SRL은 강력한 교사 모델을 사용해 문제 해결 경로(solution trajectory)를 미리 만들어, 이를 소형 모델 학습에 활용한다.

훈련 중 모델은 먼저 태그 안에 생각 과정, 즉 '내적 독백(inner monologue)'을 만들어서 무엇을 할지 정리한 뒤 행동을 수행한다. 각 단계에서 모델이 선택한 행동이 전문가의 행동과 얼마나 비슷한지에 따라 보상받는다.

이런 단계별 보상 시스템은 모델이 한번에 답을 맞추지는 못해도, 부분적으로 올바른 행동을 배우며 점점 개선할 수 있게 한다. 이는 기존 RLVR에서 발생하던 보상 부족 문제를 해결해 준다는 설명이다.


연구진은 SRL의 효과를 검증하기 위해 '큐원2.5-7B-인스트럭트'를 난이도 높은 1000개 수학 문제 데이터셋으로 미세조정했다. 이후 SFT와 RLVR 기반 모델과 비교한 결과, SRL 학습 모델은 평균 3.0% 성능 향상을 기록했다.

또 SRL을 소프트웨어 엔지니어링 분야로 확장했다. '큐원2.5-코더-7B-인스트럭트'를 5000개의 전문가 에이전트 시연 데이터로 학습한 결과, SRL 모델은 기존 SFT 기반 모델보다 과제 해결률 14.8%, 상대적 성능 74% 향상을 달성했다.

SRL은 모델이 구조적이고 질 높은 추론 능력을 높이는 방식으로 효율을 개선한다고 강조했다. 모델이 사용하는 토큰 수는 기존 모델과 비슷한 수준이라고 전했다.

연구진은 "SRL은 여러 가지 풀이 방법이 가능한 현실 문제에서도 유연하게 작동하면서, 각 단계가 올바른 추론인지 판단할 수 있는 균형을 제공한다"라고 밝혔다.

또 "이런 특징 때문에 데이터 분석 자동화나 공급망 최적화처럼 중간 단계의 판단이 중요한 분야에 적합하다"라고 설명했다.

박찬 기자 cpark@aitimes.com

<저작권자 Copyright ⓒ AI타임스 무단전재 및 재배포 금지>

info icon이 기사의 카테고리는 언론사의 분류를 따릅니다.

AI 이슈 트렌드

실시간
  1. 1전준호 별세
    전준호 별세
  2. 2스위스 리조트 폭발
    스위스 리조트 폭발
  3. 3강선우 제명
    강선우 제명
  4. 4손흥민 토트넘 이적
    손흥민 토트넘 이적
  5. 5송도순 별세
    송도순 별세

AI타임스 하이라이트

파워링크

광고
링크등록

당신만의 뉴스 Pick

쇼핑 핫아이템

AD